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我 们 正 处 在 一 个 大 数据 时 代 , 大 数据 并 不 仅仅 是 指 海量 数据 , 而 更 多 的 是 指 这 些 数据 都 是 非 
结构 化 的 、 无 法 用 传统 的 方法 进行 处 理 的 数据 。 相 信 很 多 人 听 说 过 目前 在 云 计算 和 大 数据 领域 里 
如 日 中 天 的 Hadoop, Hadoop 的 发 起 人 之 一 是 大 名 易 易 的 Doug Cutting。 早 在 Hadoop 诞生 之 前 ， 
Doug Cutting 已 经 用 Java 实现 了 第 一 个 提供 全 文 文本 搜索 的 开源 函数 库 Lucene。Lucene 自 2000 
年 发 布 第 一 个 开源 版 本 以 来 , 在 开源 社区 引起 了 很 大 的 反响 , 为 广大 开发 者 提供 了 研发 全 文 检索 
系统 的 利器 。Lucene 作为 Apache 的 顶级 项 目 ， 有 大 量 研发 人 员 贡 献 源码 ， 经 过 十 几 年 的 发 展 ， 
目前 Lucene 已 经 十 分 成 熟 , 可 以 说 Lucene 是 当今 最 先进 、 最 高 效 的 全 功能 开源 搜索 引擎 工具 包 。 
但 Lucene 只 是 一 个 全 文 检索 类 库 ，Elasticsearch 是 一 个 建立 在 Lucene 基础 上 的 实时 的 分 布 式 搜 
索引 擎 , 2010 年 由 Shay Bano 发 布 。 相 比 于 Lucene, Elasticsearch 功能 更 加 强大 , 使 用 更 加 方便 。 

站 在 巨人 的 肩膀 上 ， 入 门 搜索 技术 并 不 困难 ， 本 书 为 入 门 Lucene、Elasticsearch 而 生 。 本 书 
首先 介绍 信息 检索 领域 中 的 一 些 基本 理论 , 也 就 是 Lucene 的 数学 模型 ,之 后 介绍 如 何 使 用 Lucene 
库 构 建 全 文 检 索 系 统 ， 最 后 介绍 Elasticsearch。 本 书 按照 从 数学 模型 到 入 门 基础 再 到 项 目 实战 的 
思路 来 编写 ， 数 学 模型 让 读者 知 其 然 也 知 其 所 以 然 ， 入 门 基础 是 理论 到 实际 应 用 的 必 经 之 路 ， 项 
目 实战 则 是 为 了 学 以 致 用 。 书 中 的 每 一 部 分 都 力图 简明 扼要 ， 使 用 大 量 实例 和 代码 ， 为 读者 能 够 
快速 掌握 全 文 检索 技术 扫除 障碍 。 将 全 文 检索 领域 中 的 一 些 知识 和 项 目 经 验 分 享 给 大 家 ， 是 笔者 
写作 本 书 的 初衷 。 


本 书 结构 


本 书 从 逻辑 上 可 划分 为 三 部 分 。 


第 一 部 分 (第 1 章 ) ， 主 要 介绍 信息 过 载 、 信 息 检索 、 倒 排 索引 、 布 尔 模型 、tf-idf、 向 量 空 
间 模 型 、 概 率 检 索 模型 等 信息 检索 领域 的 基础 知识 。 
第 二 部 分 〈 第 2 和 3 章 )， 介 绍 如 何 使 用 Lucene 开发 全 文 检索 系统 。 


第 2 章 主要 介绍 Lucene 的 基础 知识 ， 内 容 包括 Lucene 的 特点 、Lucene 架构 、Luke 的 使 用 、 
IK 分 词 器 配置 、 扩 展 词 库 和 远程 词 库 的 配置 、Lucene 的 多 种 分 词 器 、 索 引 的 构建 方法 、 检 索 文 
档 以 及 实现 检索 关键 词 高 亮 的 方法 。 

第 3 章 是 Lucene 项 目 实战 部 分 ,介绍 如 何 使 用 Lucene 构建 一 个 文件 检索 系统 ， 内 容 包括 项 
目的 整体 设计 、 使 用 Tika 做 信息 抽取 、 索 引 的 构建 、 用 户 查询 界面 的 设计 与 实现 、 用 户 查询 处 
理 、 搜 索 结 果 展 示 等 内 容 。 


ll 从 Lucene 到 Elasticsearch: 全 文 检索 实战 


第 三 部 分 (第 4~11 章 )， 主 要 介绍 Elasticsearch 分 布 式 搜索 引擎 的 相关 技术 。 


第 4 章 是 Elasticsearch 简介 ， 内 容 包括 Elasticsearch 与 Lucene 的 关系 、Elasticsearch 的 整体 
架构 、 核 心 概念 、 在 企业 中 的 应 用 案例 、 流 行 度 趋势 、Elasticsearch 的 安装 、 中 文 分 词 配置 以 及 
相关 插件 的 安装 与 使 用 。 

第 5 章 是 Elasticsearch 集群 入 门 ， 主 要 内 容 包 括 索 引 管理 、 文 档 管 理 和 映射 详解 。 

第 6 章 介绍 Elasticsearch 的 搜索 功能 , 主要 内 容 包 括 搜索 机 制 的 解读 、 全 文 查询 、 词 项 查询 、 
复合 查询 、 嵌 套 查 询 、 位 置 查询 、 特 殊 查询 、 搜 索 高 亮 和 排序 。 

第 7 章 介绍 Elasticsearch 的 聚合 分 析 功能 。 

第 8 章 介 绍 如 何 使 用 Elasticsearch Java API 做 二 次 开发 。 

第 9 章 介 绍 Elasticsearch 集群 管理 的 相关 知识 点 ， 包 括 脑 裂 问题 、 集 群 规 划 、 索 引 规划 、 分 
布 式 集群 的 搭建 方法 以 及 如 何 查看 集群 的 监控 信息 。 

第 10 章 是 Elasticsearch 整合 MySQL 项 目 实战 部 分 , 通过 实现 对 MySQL 中 的 数据 进行 全 文 
检索 这 一 需求 ， 贯 穿 了 MySQL、JDBC、Elasticsearch Java API 以 及 Java Web 的 相关 知识 ， 使 读 
者 了 解 在 实际 的 项 目 开 发 中 使 用 Elasticsearch 做 全 文 搜索 的 方法 。 

第 11 章 介绍 Elasticsearch 和 Hadoop 大 数据 平台 交互 的 方法 。 


学 习 本 书 的 预备 知识 


Java 基础 

首先 要 配置 好 Java 开发 环境 ,不 论 是 学 习 Lucene 还 是 Elasticsearch 都 需要 安装 好 Java 环境 ， 
Elasticsearch 的 运行 要 求 JDK 版 本 最 低 为 1.7， 建 议 使 用 JDK 1.8 及 以 上 版 本 。 鉴 于 Java 的 跨 平 
台 特 性 ， 对 操作 系统 没有 要 求 ， 在 Windows. Linux. Mac OS X 系统 上 都 可 以 运行 Elasticsearch 。 
除 此 之 外 ， 读 者 需要 掌握 Java 基础 知识 。 


Java Web 开发 技术 
在 项 目 实战 中 需要 用 到 Java Web 的 相关 技术 ， 建 议 读者 在 阅读 本 书 之 前 掌握 HTML、CSS、 
JSP 等 基础 知识 ， 掌 握 Java Web 项 目的 部 署 和 运行 。 


本 书 使 用 的 软件 版 本 

本 书 基于 Lucene 6.0 和 Elasticsearch 5.4.0 进行 讲解 ， 集 成 开发 环境 为 Eclipse 4.6.1. 
读者 对 象 

在 校 学 生 

如 果 你 是 正在 大 学 校园 里 修 读 计算 机 科学 相关 专业 的 大 学 生 ， 也 许 你 正在 选修 程序 设计 语 
言 , 课程 结束 了 你 发 现 自己 只 能 写 出 命令 行 下 黑白 屏 显示 的 小 程序 ,你 也 许 很 期 待 学 到 更 多 的 技 


术 做 出 实际 的 项 目 ， 那 么 本 书 就 是 为 你 准备 的 。 书 中 的 项 目 使 用 的 是 Java 语言 ， 除 了 Lucene 和 
Elasticsearch 的 使 用 之 外 ， 还 穿插 了 Java SE, Java Web 的 相关 技术 。 


Java 程序 开发 者 

如 果 你 是 已 经 参加 工作 的 Java 程序 开发 者 ， 想 要 掌握 全 文 检索 相关 技术 却 不 知道 从 哪里 入 
F, 需要 处 理 企业 中 的 全 文 检索 业务 却 没 有 思路 ， 你 也 许 听 说 过 Lucene 或 Elasticsearch, 但 是 不 
知道 怎样 快速 入 门 ， 那 么 本 书 可 以 作为 入 门 全 文 检索 、 学 习 Lucene 和 Elasticsearch 开发 技术 的 
参考 书 。 

搜索 引擎 研发 人 员 

如 果 你 是 搜索 引擎 研发 者 ， 本 书 中 的 实际 案例 和 相关 知识 点 可 以 作为 参考 资料 ， 比 如 信息 检 
索 模型 理论 基础 、 文 档 信息 抽取 、Lucene 应 用 案例 、Elasticsearch Java API、Elasticsearch 集群 管 
理 等 。 和 希望 能 以 本 书 为 媒介 和 大 家 共同 探讨 和 交流 。 


源 代码 下 载 


源 代码 下 载 地 址 : https://pan.baidu.com/s/1IHN6i8_6RRcua3cf5za5Ww (注意 区 
分 数字 和 英文 字母 的 大 小 写 ) 


勘误 与 交流 


限于 笔者 水 平和 写作 时 间 有 限 , 不 可 避免 地 会 有 些 疏 漏 之 处 ,欢迎 大 家 通过 电子 邮件 等 方式 
批评 指正 。 

笔者 的 邮箱 : ucasyp@163.com 

笔者 的 博客 : blog.csdn.net/napoay 

QQ 交流 群 : 614836679 
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言 息 检 索 模 型 


本 章 学 习 要 点 : 

灾 信息 过 载 简介 * 布尔 检索 模型 
* 信息 检索 定义 * tf-idf 权重 计算 
k 分 词 算法 简介 * 向 量 空 间 模 型 
% 倒 排 索引 介绍 k 概率 检索 模型 


1.1. 信息 检索 概述 


14.1. 信息 过 载 


互联 网 的 飞速 发 展 使 人 类 进入 了 信息 大 爆炸 的 时 代 ， 根 据 相 关 统计 数据 显示 ， 目 前 全 球 
网 民 数 量 已 经 达到 32 亿 人 ， 互 联网 上 的 数据 也 呈 指 数 级 增长 。 图 1-1 是 国外 初创 公司 Domo 
发 布 的 一 张 信 息 图 ， 该 图 展示 了 各 大 网 站 在 60 秒 内 产生 的 巨大 数据 量 。 

根据 Domo 的 数据 显示 ， 在 一 分 钟 内 YouTube 用 户 会 上 传 400 个 小 时 的 新 视频 ，Netflix 

用 户 每 分 钟 则 观看 86 805 个 小 时 的 视频 。 与 此 同时 ， 苹 果 用 户 每 分 钟 下 载 51 000 个 应 用 ， 亚 
马 逊 每 分 钟 交易 额 达 222 283 FETC, Google 在 一 分 钟 内 翻译 了 69 500 000 个 单词 ，SIRI 一 分 

钟 内 回答 了 99 206 个 问题 ，The Weather Channel ( 注 : 一 款 天 气 预报 软件 ) 每 分 钟 接收 13 888 
889 次 天 气 查询 请 求 。 在 社交 网 站 方面 ，Facebook 用 户 每 分 钟 分 享 216 302 3K), Dropbox 
用 户 每 分 钟 上 传 833 333 个 新 文件 , Tinder 用 户 每 分 钟 发 布 9678 条 表情 符号 推 文 , 而 Snapchat 
用 户 每 分 钟 会 发 布 284 722 张 照片 。 


2 从 Lucene 到 Elasticsearch: 全 文 检索 实战 


USERS VIEW C USERS MATCH — | SUBSCRIBERS STREAM 


moues 
PECES or TRANSLATES 
Content VIDEOS | — oF vito 


WORDS - 


J MINUTE) 
(MINUTE ` 


NND 


IN SALES 


TEXT MESSAGES. RECEIVES 
‘ARE SENT 

INTHE sirves u: 
USERS SEND 


图 1-1 互联 网 上 的 一 分 钟 


就 在 你 看 完 上 面 这 段 内 容 的 时 间 里 ， 所 有 的 一 切 都 可 能 发 生 了 改变 。 我 们 处 在 一 个 大 数 
据 时 代 ， 也 是 一 个 信息 过 载 (Information Overload) 的 时 代 。 大 数据 时 代 的 特点 可 以 用 4 个 V 
来 概括 : 


e Volume 

数据 量 大 ， 全 球 每 年 产生 的 数据 总 量 已 经 达到 ZB (1ZB=24%GB) 级别 。 
e Variety 

数据 种 类 繁多 ， 如 文本 、 图 片 、 视 频 、 地 理 信 息 、 各 种 传感器 信息 等 。 
e Velocity 

数据 流动 速度 快 ， 对 数据 处 理 的 时 效 性 要 求 高 。 
e Value 


大 数据 蕴含 着 巨大 的 价值 ， 可 以 帮助 人 们 解决 数据 量 不 足 时 所 不 能 解决 的 问题 。 


信息 过 载 是 指 社会 信息 超过 了 个 人 或 系统 所 能 接受 、 处 理 或 有 效 利用 的 范围 ， 并 导致 故 
障 的 状况 。 信 息 过 载 主 要 有 以 下 3 个 特点 : 


(1) 受 传 者 对 信息 反映 的 速度 远 远 低 于 信息 传播 的 速度 。 
(2) 大 众 媒介 中 的 信息 量 大 大 高 于 受众 所 能 消费 、 承 受 或 需要 的 信息 量 。 
(3) 大 量 无 关 的 、 没 用 的 、 元 余 的 信息 严重 干扰 了 受众 对 相关 有 用 信息 的 准确 分 析 和 正 
确 选择 。 
信息 过 载 是 信息 时 代 信 息 极 大 丰富 的 负面 影响 之 一 。 
1.1.2 ”信息 检索 定义 


信息 资源 总 量 呈 爆炸 式 增长 ， 在 信息 的 海洋 里 获取 想 要 的 信息 变 得 更 加 困难 。 为 了 解决 
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信息 过 载 的 问题 , 无 数 科 学 家 和 工程 师 提出 了 很 多 天 才 的 解决 方案 , 其 中 最 具 代 表 性 的 是 分 类 
目录 和 搜索 引擎 。 

分 类 目录 是 将 网 站 信息 系统 地 分 类 整理 ， 提 供 一 个 按 类 别 编排 的 网 站 目录 ， 在 每 类 中 排 
列 着 属于 这 一 类 别 的 网 站 站 名 、 网 址 链接 、 内 容 提要 以 及 子 分 类 目录 ， 可 以 在 分 类 目录 中 逐 级 
浏览 寻找 相关 的 网 站 , 分 类 目录 中 往往 还 提供 交叉 索引 ， 从 而 可 以 方便 地 在 相关 的 目录 之 间 跳 
转 和 浏览 。 互 联网 早期 的 门户 网 站 ， 比 如 雅虎 、 搜 狐 、 新 浪 等 ， 都 是 将 不 同 来 源 的 信息 以 一 种 
整齐 划一 的 形式 整理 、 储 存 并 呈现 给 用 户 ， 用户 根据 信息 来 源 、 信 息 类 型 、 关 键 字 等 方式 筛选 
网 站 内 容 。 
搜索 引擎 是 指 自 动 从 因特网 搜集 信息 ， 经 过 一 定 整理 以 后 ， 提 供给 用 户 进行 查询 的 系统 。 
国外 具有 代表 性 的 搜索 引擎 有 Google. Bing. Yahoo 等 ， 国 内 具有 代表 性 的 搜索 引擎 有 百度 
搜索 、 搜 狗 搜 索 、360 搜索 等 。 

我 们 常用 的 搜索 引擎 是 Web 搜索 ,是 信息 检索 的 一 个 分 支 ,学 术 上 的 信息 检索 (Information 
Retrieval， 简 称 IR) 的 定义 为 : 信息 检索 是 从 大 规模 非 结 构 化 数据 (通常 是 文本 ) 的 集合 ( 通 
常 保 存在 计算 机 上 ) 中 找 出 满足 用 户 信息 需求 的 资料 〈 通 常 是 文档 ) 的 过 程 。 


1.1.3 ”信息 检索 常用 术语 


信息 检索 领域 有 一 些 常用 的 术语 ， 深 刻 理 解 这 些 术语 对 入 门 信息 检索 非常 有 必要 ， 简 介 
如 下 。 


e 用 户 需求 (User Need， 简 称 UN) 
用 户 需要 获得 的 信息 。 严 格 地 说 ，UN 只 存在 于 用 户 的 内 心 ， 但 是 通常 用 文本 来 描述 ， 如 
查找 与 “2014 世界 杯 ” 相 关 的 新 闻 ， 有 时 也 称 为 主题 (Topic) 。 
e 查询 (Query) 
UN 提交 给 检索 系统 时 称 为 查询 (Query) ， 如 “iPhone7 价格 ”。 对 同一 个 UN， 不 同人 
不 同时 候 可 以 构造 出 不 同 的 Query， 上 述 需 求 也 可 表示 成 “苹果 7 价格 ”。Query TE IR 系 
统 中 往往 还 有 内 部 表示 。 
e 文档 (Document) 
文档 是 信息 检索 的 对 象 , 文档 不 仅仅 可 以 是 文本 , 也 可 以 是 图 像 、 视 频 、 语 音 等 多 媒体 文档 。 
e 文档 集 (Crops) 
由 若干 文档 构成 的 集合 称 为 文档 集合 ， 文 档 集 有 时 也 称 为 语料库 。 海 量 的 互联 网 网 页 、 文 
件 系统 中 的 文本 文件 、 大 量 的 电子 邮件 ， 都 是 文档 集合 的 具体 例子 。 
e 文档 编号 (Document ID) 
文档 ID 是 给 文档 集中 的 每 个 文档 赋予 的 唯一 标识 符 ， 通 过 文档 ID 来 区 分 不 同 的 文档 ， 这 
样 能 够 方便 搜索 引擎 的 内 部 处 理 。 缩 写 为 docID 。 
e 词 条 化 〈tokenization ) 
词 条 化 是 将 给 定 的 字符 序列 拆 分 成 一 系列 子 序 列 的 过 程 ， 拆 分 的 每 个 子 序列 称 为 一 个 词 
条 。 词 条 化 的 过 程 中 有 可 能 会 去 除 标点 符号 等 特殊 字符 。 下 面 是 一 个 词 条 化 的 具体 例子 。 


输入 : Whatever happens tomorrow,we have had today. 


fih: [whatever] [happens ] [tomorrow | [we | [have | [had] [today] 


4 从 Lucene 到 Elasticsearch: 全 文 检 索 实 战 


e 词 项 (Term) 


词 项 是 经 过 语言 学 预 处 理 之 后 归 一 化 的 词 条 。 词 项 是 索引 的 最 小 单位 ， 一 般 情 况 下 可 


词 项 当 作词 ， 但 词 项 不 一 定 就 是 词 。 对 于 上 面 的 句子 ， 产 生词 项 如 下 : 


[whatever | | happen ] [ tomorrow ] [ we ] [ have | [ had | Ltoday | 


e ， 词 项 -文档 关联 矩阵 (Incidence matrix) 


可 以 把 


词 项 -文档 关联 矩阵 是 表示 词 项 和 文档 之 间 所 具有 的 一 种 包含 关系 的 概念 模型 , R 1-1 展示 


了 其 含义 。 表 中 的 每 列 代 表 一 个 文档 ， 每 行 代表 一 个 词 项 ， 打 对 勾 的 位 置 代表 包含 


表 1-1 词 项 一 文档 关联 矩阵 


doc6 
term] Vv 
term2 
term3 
term4 
term5 v 
term6 


关系 。 


从 纵向 即 文档 这 个 维度 来 看 ,每 列 代表 一 个 文档 包含 的 词 项 信息 , 比如 docl 包含 了 terml、 
term4 和 term5， 而 不 包含 term2、term3、term6。 从 横向 即 词 项 这 个 维度 来 看 ， 每 行 代表 该 词 
项 在 文档 中 的 分 布 信息 ， 比 如 对 于 terml 来 说 ，doc1、doc3、doc6 中 出 现 过 term1， 而 其 他 文 


档 不 包含 term1。 甜 阵 中 其 他 的 行列 也 可 作 此 种 解读 。 
e ME (Term frequency) 


同一 个 单词 在 某 个 文档 中 出 现 的 频率 。 比 如 ， 单 “apple” 在 某 文档 中 出 现 了 3 次 ， 那 么 该 


单词 在 该 文档 中 的 词 项 频率 就 是 3。 
e XMR (Document frequency) 


出 现 某 词 项 的 文档 的 数目 。 比 如 ， 单 词 “China” 只 出 现在 文档 集合 中 的 文档 1 和 文档 5, 


那么 该 单词 的 文档 频率 就 是 2。 
e [Hid (Postings lists) 


倒 排 记 录 表 用 于 记录 出 现 过 某 个 单词 的 所 有 文档 的 文档 列表 以 及 单词 在 该 文档 中 出 现 的 


位 置信 息 ， 每 条 记录 称 为 一 个 倒 排 项 。 通 过 倒 排列 表 即 可 获知 哪些 文档 包含 哪些 单 
e ， 倒 排 文 件 〈Inverted file) 
倒 排 记录 表 在 磁盘 中 的 物理 存储 文件 称 为 倒 排 文件 。 


1.1.4 ”信息 检索 系统 


词 。 


一 个 完整 的 信息 检索 系统 的 基本 架构 如 图 1-2 所 示 。 信息 检索 系统 可 以 分 为 信息 采集 、 信 


息 整 理 和 用 户 查询 3 部 分 。 
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si 


用 户 反馈 Query 
排序 过 的 文档 mE 然 语 言 p 


执行 查询 


图 1-2 IR 系统 基本 架构 图 


1. 信息 采集 


信息 采集 基本 都 是 通过 网 络 候 虫 (Spider) 自动 完成 的 。 网 络 爬 虫 是 一 种 按照 一 定 的 规则 ， 
自动 地 抓 取 万 维 网 信息 的 程序 或 者 脚本 。 互联 网 上 的 网 页 数 以 亿 计 , 遍布 在 全 球 的 各 个 服务 器 
上 ,通过 疏 虫 可 以 将 网 页 下 载 下 来 进行 进一步 的 分 析 和 挖掘 , 经 过 格式 处 理 之 后 提取 网 页 信息 
为 构建 索引 做 准备 。 


2. 整理 信息 


信息 检索 系统 整理 信息 的 过 程 称 为 索引 构建 。 信 息 检索 系统 不 仅 要 保存 搜集 起 来 的 信息 ， 
还 要 将 它们 按照 一 定 的 规则 进行 编排 , 这样 就 不 用 重新 翻 查 它 所 有 保存 的 信息 就 能 迅速 找到 所 
要 的 资料 。 如果 信息 是 不 按 任 何 规则 地 随意 堆放 在 系统 中 , 那么 它 每 次 找 资料 都 得 把 整个 资料 
库 完 全 翻 查 一 遍 ， 如 此 一 来 再 快 的 计算 机 系统 也 没有 用 。 


3. 接受 查询 


用 户 向 信息 检索 系统 发 出 查询 请 求 ， 信 息 检 索 系 统 接受 查询 并 向 用 户 返 回 检索 到 的 文档 。 
信息 检索 系统 (尤其 是 商用 搜索 引擎 ) 每 时 每 刻 都 要 接 到 来 自 大 量 用 户 的 几乎 是 同时 发 出 的 查 
询 ， 它 按照 每 个 用 户 的 要 求 检查 自己 的 索引 , 在 极 短 时 间 内 找到 用 户 需要 的 文档 ， 并 返回 给 用 
户 。 目 前 ,搜索 引擎 返回 主要 是 以 网 页 链接 的 形式 提供 的 ， 通 过 这 些 链接 用 户 便 能 到 达 含有 自 
己 所 需 资料 的 网 页 。 搜 索引 擎 通常 会 在 这 些 链接 下 提供 一 小 段 来 自 这 些 网 页 的 摘要 信息 以 帮助 
用 户 判断 此 网 页 是 否 含有 自己 需要 的 内 容 。 


1.2 ”分词 算 法 


1.2.1 ”分词 算法 概述 


词 是 表达 语义 的 最 小 单位 。 分 词 对 搜索 引擎 的 帮助 很 大 ， 可 以 帮助 搜索 引擎 程序 自动 识别 
语句 的 含义 ， 从 而 使 搜索 结果 的 匹配 度 达 到 最 高 ， 因 此 分 词 的 质量 也 就 直接 影响 了 搜索 结果 的 
精确 度 。 分 词 在 文本 索引 的 建立 过 程 和 用 户 提交 检索 过 程 中 都 存在 。 利 用 相同 的 分 词 器 ， 把 短 
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语 或 者 句子 切 分 成 相同 的 结果 ， 才 能 保证 检索 过 程 顺 利 进行 。 中 文 和 英文 的 分 词 原理 简介 如 下 
1. 英文 分 词 的 原理 


基本 的 处 理 流程 是 : 输入 文本 、 词 汇 分 割 、 词 汇 过 滤 (去 除 停留 词 )、 词 干 提 取 (形态 
还 原 ) 、 大 写 转 为 小 写 、 结 果 输 出 。 


2. 中 文 分 词 原理 


中 文 分 词 比较 复杂 ， 并 没有 英文 分 词 那么 简单 。 这 主要 是 因为 中 文 的 词 与 词 之 间 并 不 像 
英文 中 那样 用 空格 来 隔 开 。 中 文 分 词 主要 有 3 种 方法 : 基于 词典 匹配 的 分 词 方法 、 基 于 语义 理 
解 的 分 词 、 基 于 词 频 统计 的 分 词 


1.2.2 词典 匹配 分 词法 


基于 字典 匹配 的 分 词 方法 按照 一 定 的 匹配 策略 将 输入 的 字符 串 与 机 器 字典 词 条 进行 匹 
配 , 这 种 方法 是 最 简单 的 也 是 最 容易 想到 的 分 词 办 法 , 最 早 由 北京 航空 航天 大 学 的 梁 南 元 教授 
提出 。 查 字典 分 词 实际 上 就 是 把 一 个 句子 从 左 向 右 扫 描 一 遍 ， 遇 到 字典 中 有 的 词 就 标识 出 来 ， 
遇 到 复合 词 就 找到 最 长 的 词 匹配 ， 遇 到 不 认识 的 字 串 则 切 分 成 单个 词 。 按 照 匹配 操作 的 扫描 方 
向 不 同 , 字典 匹配 分 词 方法 可 以 分 为 正 向 匹配 、 逆 向 匹配 以 及 结合 了 两 者 的 双向 匹配 算法 ; 按 
照 不 同 长 度 优先 匹配 的 情况 ， 可 以 分 为 最 大 (最 长 ) 匹配 和 最 小 〈 最 短 ) 匹配 ; 按照 是 否 与 词 
性 标注 过 程 相 结合 ,又 可 以 分 为 单纯 分 词 方法 和 分 词 与 词性 标注 相 结合 的 方法 。 几 种 常用 的 词 
典 分 词 方法 如 下 : 

e 下 向 最 大 匹配 (由 左 到 右 的 方向 ) 

e 逆向 最 大 匹配 (由 右 到 左 的 方向 ) 

e 最 少 切 分 (是 每 一 句 中 切除 的 词 数 最 小 ) 


实际 应 用 中 上 述 各 种 方法 经 常 组 合 使 用 ， 以 达到 最 好 的 效果 ， 从 而 衍生 出 了 结合 正 向 最 
大 匹配 方法 和 逆向 最 大 匹配 算法 的 双向 匹配 分 词法 。 由 于 中 文 分 词 最 大 的 问题 是 歧义 处 理 , 结 
合 中文 语 言 自身 的 特点 , 经 常 采用 逆向 匹配 的 切 分 算法 ,处 理 的 精度 高 于 正 向 匹配 ， 产生 的 切 
分 歧义 现象 也 较 少 。 

真正 实用 的 分 词 系统 ， 都 是 把 词典 分 词 作 为 基础 手段 ， 结 合 各 种 语言 的 其 他 特征 信息 来 
提高 切 分 的 效果 和 准确 度 。 有 的 实用 系统 中 将 分 词 和 词性 标注 结合 起 来 , 利用 句法 和 词法 分 析 
对 分 词 决策 提高 帮助 , 在 词性 标注 过 程 中 迭代 处 理 , 利用 词性 和 语法 信息 对 分 词 结果 进行 检验 、 
调整 。 


1.2.3 ”语义 理解 分 词法 


基于 语义 理解 的 分 词 方法 是 模拟 人 脑 对 语言 和 句子 的 理解 ， 达 到 识别 词汇 单元 的 效果 。 
基本 模式 是 把 分 词 、 句 法 、 语 义 分 析 并 行进 行 ， 利 用 句法 和 语义 信息 来 处 理 分 词 的 歧义 。 

一 般 结 构 中 通常 包括 分 词 子 系统 、 句 法 语义 子 系统 、 调 度 系统 。 在 调度 系统 的 协调 下 
分 词 子 系统 可 以 获得 有 关 词 、 句 子 等 的 句法 和 语义 信息 ,模拟 人 脑 对 句子 的 理解 过 程 。 基 于 语 
义理 解 的 分 词 方法 需要 使 用 大 量 的 语言 知识 和 信息 。 
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目前 国内 外 对 汉语 语言 知识 的 理解 和 处 理 能 力 还 没有 达到 语义 层面 ， 具 体 到 语言 信息 很 
难 组 织 成 机 器 可 直接 读 取 、 计 算 的 形式 ， 因 此 目前 基于 语义 理解 的 分 词 系 统 还 处 在 试验 阶段 。 


1.2.4 ， 词 频 统 计 分 词法 


这 种 做 法 基于 人 们 对 中 文 词语 的 直接 感觉 。 通 常 词 是 稳定 的 字 的 组 合 ， 因 此 在 中 文 文章 
的 上 下 文中 ， 相 邻 的 字 搭 配 出 现 的 频率 越 多 ， 就 越 有 可 能 形成 一 个 固定 的 词 。 根 据 n 元 语法 
知识 可 以 知道 , 字 与 字 相 邻 同时 出 现 的 频率 或 概率 能 够 较 好 地 反映 成 词 的 可 信和 度 。 实际 的 系统 
中 , 通过 对 精心 准备 的 中 文 语 料 中 相 邻 共 现 的 各 个 字 的 组 合 的 频 度 进行 统计 , 计算 不 同 字 词 的 
共 现 信息 。 根 据 两 个 字 的 统计 信息 ,计算 两 个 汉字 的 相 邻 共 现 概率 ， 统 计 出 来 的 信息 体现 了 中 
文 环境 下 汉字 之 间 结 合 的 紧密 程度 。 当 紧密 程度 高 于 某 一 个 阔 值 时 , 便 可 认为 此 字 组 可 能 构成 
一 个 词 。 

基于 词 频 统计 的 分 词 方法 只 需要 对 语 料 中 的 字 组 频 度 进行 统计 ， 不 需要 切 分 词典 ， 因 而 
又 叫 作 无 词典 分 词法 或 统计 分 词 方法 。 这 种 方法 经 常 抽出 一 些 共 现 频 度 高 但 并 不 是 词 的 常用 字 
组 , 需要 专门 处 理 , 提高 精确 度 。 实 际 应 用 的 统计 分 词 系 统 都 使 用 一 个 基本 的 常用 词 词典 , 把 
字典 分 词 和 统计 分 词 结合 使 用 。 基于 统计 的 方法 能 很 好 地 解决 词典 未 收录 新 词 的 处 理 问题 , 即 
将 中 文 分 词 中 的 串 频 统计 和 串 匹配 结合 起 来 ， 既 发 挥 匹配 分 词 切 分 速度 快 、 效 率 高 的 特点 ， 又 
利用 了 无 词典 分 词 结合 上 下 文 识别 生词 、 自 动 消除 歧义 的 优点 。 
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索引 是 构成 搜索 引擎 的 核心 技术 之 一 ， 索 引 在 日 常生 活 中 其 实 也 是 非常 常见 的 ， 比 如 当 
我 们 看 一 本 书 的 时 候 , 我 们 首先 会 看 书 的 目录 , 通过 目录 可 以 快速 定位 到 某 一 章节 的 页 码 ,加 
快 对 内 容 的 查询 速度 。 

文档 通常 保存 在 各 种 数据 库 管 理 系统 之 中 ， 比 如 Oracle, MySQL 等 。 但 是 搜索 引擎 中 的 
数据 不 能 保存 到 数据 库 中 ,主要 是 因为 数据 库 不 能 满足 搜索 引擎 的 需求 , 原因 有 二 : 一 是 搜索 
引擎 中 的 数据 量 非常 庞大 , 大 型 商业 搜索 引擎 需要 处 理 数 以 亿 计 的 网 页 , 面 对 海 量 数据 使 用 关 
系 型 数据 库 很 难 管理 ; 二 是 搜索 引擎 使 用 的 数据 操作 非常 简单 , 一 般 只 需 增删 改 查 这 几 个 基本 
功能 , 一 般 的 数据 库 系统 则 支持 大 而 全 的 功能 , 损失 了 速度 和 空间 ,大量 用 户 检索 则 要 求 搜索 
引擎 响应 时 间 必 须 很 快 , 检索 效率 要 非常 高 , 数据 库 系 统 在 检索 响应 时 间 和 检索 并 发 度 方面 都 
不 能 满足 需求 。 而 数据 库 中 的 索引 就 是 为 了 提高 表 的 搜索 效率 而 对 某 些 字段 中 的 值 建立 的 目 
录 ， 在 搜索 引擎 中 使 用 倒 排 索引 这 种 数据 结构 来 存储 网 页 信息 。 

倒 排 索引 〈JInverted index) ， 也 常 被 称 为 反 向 索引 ， 是 一 种 索引 方法 ， 被 用 来 存储 在 全 文 
搜索 下 某 个 单词 在 一 个 文档 或 者 一 组 文档 中 的 存储 位 置 的 映射 , 它 是 文档 检索 系统 中 最 常用 的 
数据 结构 。 

下 面 以 简单 通俗 的 例子 来 理解 倒 排 索引 ， 假 设 现在 有 两 个 文档 docl 和 doc2, docl 包含 3 
个 关键 词 : 中国、 美国 、 韩 国 ，doc2 中 包含 4 个 关键 词 : 中国、 美国、 德国、 英国， 文档 和 
词语 的 包含 关系 〈 也 就 是 正 排 索 引 ) ， 见 表 1-2。 
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表 1-2 文档 一 单词 对 照 表 


文 档 词 语 
docl "PER. SH. SH 
doc2 KE. HE. XH. 6H 


那么 词语 所 属 的 文档 关系 ， 也 就 是 倒 排 索引 ， 见 表 1-3. 
表 1-3 单词 一 文档 对 照 表 


词 语 文 档 
中 国 docl、 doc2 
美国 docl、 doc2 
韩国 docl 
英国 doc2 
德国 doc2 


如 果 想 查找 包含 关键 词 “ 美 国 ” 的 文档 ， 那 么 结果 就 是 docl 和 doc2。 这 样 从 文档 包含 单 
词 到 单词 所 属 文档 的 转换 , 就 是 倒 排 的 由 来 。 我 们 在 搜索 引擎 中 输入 关键 词 进行 查询 ,就 是 一 
次 查找 哪些 文档 包含 查询 关键 词 的 过 程 。 

下 面 我 们 通过 具体 实例 深入 理解 倒 排 索引 ， 通 过 简单 文档 以 小 见 大 ， 体 验 倒 排 索引 的 构 
建 过 程 。 如 表 1-4 所 示 ,在 互联 网 上 找 了 4 条 科技 新 闻 作为 一 个 文档 集合 , 我 们 以 新 闻 标题 作 
为 文档 内 容 ， 给 每 个 文档 设置 一 个 连续 的 整数 编号 作为 文档 ID。 


表 14 ”构建 倒 排 索引 文档 集合 


文档 ID 文档 内 容 
1 人 工 智能 成 为 互联 网 大 会 焦点 
2 谷歌 推出 开源 人 工 智能 系统 工具 
3 互联 网 的 未 来 在 人 工 智能 
4 谷歌 开源 机 器 学 习 工 具 


对 于 文档 内 容 ， 先 要 经 过 词 条 化 处 理 。 和 英文 不 同 的 是 ， 英 文通 过 空格 分 隔 单词 ， 中 文 的 
词 与 词 之 间 没 有 明确 的 分 隔 符号 , 经 过 分 词 系统 进行 中 文 分 词 以 后 把 矩阵 切 分 成 一 个 个 的 词 条 ， 
文档 4 会 被 分 成 “谷歌 * “开源 ”“ 机 器 ” “学 习 ” “工具 ”5 个 词 项 。 “谷歌 ”这 个 词 在 文档 
2 和 文档 4 中 各 出 现 一 次 ， 文 档 频 率 为 2， 倒 排 记录 表 记 作 2-…,4， 文 档 频率 也 是 倒 排 记录 表 的 长 
度 。 依 次 统计 各 个 词 项 的 文档 频率 和 倒 排 记录 表 ， 构 建 倒 排 索引 过 程 如 表 1-5 所 示 。 


1-5 倒 排 索引 构建 过 程 


词 项 文档 频率 
AL 3 
智能 3 
成 为 1 
互联 网 2 
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( 续 表 ) 
词 项 文档 频率 


E 
S 
-|-—-|-|-7l-Jlt[-ltj-lt|-l- 
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检索 模型 是 判断 文档 内 容 与 用 户 查询 相关 性 的 核心 技术 ， 以 大 规模 网 页 搜索 为 例 ， 在 海 
量 网 页 中 与 用 户 查 询 关键 词 相关 的 网 页 可 能 会 有 成 干 上 万 个 , 甚至 更 多 。 那么 信息 检索 系统 是 
如 何 判断 网 页 和 查询 关键 词 是 相关 的 ? 内 部 的 排序 模型 是 怎样 的 ? 

布尔 检索 法 是 指 利用 布尔 运算 符 连 接 各 个 检索 词 ， 然 后 由 计算 机 进行 逻辑 运算 ， 找 出 所 
需 信息 的 一 种 检索 方法 。 布尔 检索 模型 的 数学 基础 是 集合 论 , 在 该 模型 下 每 篇 文档 被 看 成 是 一 
系列 词 的 集合 。 

布尔 检索 模型 中 主要 有 AND. OR. NOT 三 种 逻辑 运算 ， 布 尔 逻辑 运算 符 的 作用 是 把 检 
索 词 连接 起 来 ， 构 成 一 个 逻辑 检索 式 。 


e AND (或 *) : 逻辑 与 ,用 来 表示 其 所 连接 的 两 个 检索 项 的 交叉 部 分 ， 即 检索 词 的 交集 部 分 。 
例如 检索 同时 含有 关键 词 A 和 B 的 集合 : A AND B 
e OR (或 +) : 逻辑 或 ， 用 于 连接 并 列 关系 的 检索 词 。 
表示 查找 含有 检索 词 A 和 B 之 一 ， 或 同时 包含 检索 词 A 和 B 的 信息 : A OR B 
e NOT (或 -) : 逻辑 非 ， 排 除 不 需要 的 和 影响 检索 结果 的 概念 。 
表示 含有 检索 词 A 并 且 不 含有 检索 词 B 的 信息 : A NOT B 
运算 符 之 间 的 优先 级 : NOT > AND > OR, 如 检索 表达 式 : 中 国 NOT 日 本 AND 歌曲 OR 
小 说 ， 搜 索 结果 为 :名字 包 含 中 国 但 是 不 包含 日 本 的 歌曲 或 者 小 说 。 
利用 小 括号 “0” 可 以 设置 个 性 化 的 检索 方程 ， 例 如 检索 出 不 包含 日 本 在 内 的 有 关 教 育 或 
法 律 方面 的 大 学 : 


(university OR college) AND (education OR Law) NOT Japan 
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对 表 1-5 的 文档 集 建立 单词 一 文档 窍 阵 ， 如 果 单 词 在 文档 中 出 现 则 记 为 1， 单 词 没 有 在 文 
档 中 出 现 则 记 为 0， 结果 如 表 1-6 所 示 。 


表 1-6 单词 -文档 矩阵 


doc3 


eole|-|-|-!'eoeies|e|sjo|2s|2s|-|2!-'- 
-|-|eje|eo!-|e|-[2|-|5|o|5|25!2s' 


单词 -文档 矩阵 从 行 来 看 ， 每 一 行 是 一 个 行 向 量 ， 对 应 每 个 词 项 的 文档 向 量 ， 表 示 该 词 项 
在 哪些 文档 中 出 现 ， 在 哪些 文档 中 不 出 现 ; 从 列 来 看 ， 每 一 列 是 一 个 列 向 量 ， 对 应 每 个 文档 的 
词 项 向 量 ， 表 示 该 文档 中 哪些 词 项 出 现 了 ， 哪 些 词 项 没有 出 现 。 

如 果 想 要 查询 包含 “谷歌 ” “开源 ”但 不 包含 “大 会 ”的 文档 ， 构 造 布尔 查询 : 

谷歌 AND 开源 NOT 大 会 

分 别 取 出 “谷歌 ” “开源 ”以 及 “大 会 ”对 应 的 行 向 量 ， 对 “大 会 ”对 应 的 行 向 量 取 
反 算 : 


大 会 : i 0 0 0 (BUx:0 1 1 1) 
然后 进行 与 运算 : 
0101 AND 0101 AND 0111=0101 


结果 向 量 中 第 2 和 第 4 个 元 素 为 1， 文档 2 和 文档 4 是 符合 查询 条 件 的 结果 。 


第 一 ， 与 人 们 的 思维 习惯 一 致 ， 用 户 可 以 通过 布尔 逻辑 运算 符 “AND”“OR”“NOT” 
将 用 户 的 提问 “翻译 ”成 系统 可 接受 的 形式 。 
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第 二 ， 布 尔 逻辑 式 表 达 直 观 清晰 。 

第 三 ， 方 便 用 户 进行 扩 检 和 缩 检 : 用 户 可 通过 增加 逻辑 “与 ”进行 缩小 检索 ， 增 加 逻辑 
“或 ”进行 扩展 检索 。 

第 四 ， 易 于 计算 机 实现 : 由 于 布尔 检索 是 以 比较 方式 在 集合 中 进行 检索 的 ， 返 回 结果 只 
有 1 和 0， 易 于 实现 ， 这 也 是 现在 的 各 种 检索 系统 中 都 提供 布尔 检索 的 重要 原因 。 


布尔 检索 模型 的 缺点 : 


第 一 ， 它 的 检索 策略 只 基于 0 和 1 二 元 判定 标准 。 例 如 ， 一 篇 文档 只 有 相关 和 不 相关 两 
种 状态 ， 缺 乏 文档 分 级 〈rank) 的 概念 ， 不 能 进行 关键 词 重要 性 排序 ， 限 制 了 检索 功能 。 

第 二 ， 没 有 反映 概念 之 间 内 在 的 语义 联系 。 所 有 的 语义 关系 被 简单 的 匹配 代 蔡 ， 常 常 很 
难 将 用 户 的 信息 需求 转换 为 准确 的 布尔 表达 式 。 

第 三 ， 完 全 匹配 会 导致 太 少 的 结果 文档 被 返回 。 没 有 加 权 的 概念 ， 容 易 出 现 漏 检 。 
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tf-idf 中 文 称 为 词 频 - 逆 文 档 频率 , 用 以 计算 词 项 对 于 一 个 文档 集 或 一 个 语料库 中 的 一 份 文 
件 的 重要 程度 。 词 项 的 重要 性 随 着 它 在 文档 中 出 现 的 次 数 成 正比 增加 , 但 同时 会 随 着 它 在 文档 
集中 出 现 的 频率 成 反比 下 降 。 换 名 话说， 如 果 一 个 词 项 在 一 篇 文档 中 出 现 的 频率 非常 高 ， 说 明 
其 重要 性 比较 高 , 但 是 如 果 这 个 词 项 在 文档 集中 的 其 他 的 文档 中 出 现 的 频率 也 很 高 , 那么 说 明 
这 个 词语 有 可 能 是 比较 通用 比较 常见 的 。 

tf (term frequency) 代表 词 项 频率 ， 要 想 计算 一 份 文档 中 某 个 词 的 词 频 ， 统 计 该 词 在 整 篇 
文档 中 出 现 的 次 数 即 可 。 文 档 有 长 短 之 分 ， 举 个 例子 ， 一 篇 3000 字 的 文章 中 词语 “足球 ”出 
现 了 3 次 , 我 们 很 难 断 定 这 篇 文章 就 是 和 足球 相关 的 , 但 是 一 篇 140 字 的 微 博 中 同样 出 现 三 次 
“足球 ”, 基本 可 以 断定 微 博 内 容 和 足球 有 关 。 为 了 削弱 文档 长 度 的 影响 , 需要 将 词 频 标准 化 ， 
计算 方法 如 下 : 


单词 在 文档 中 出 现 的 次 数 
文档 的 总 词 数 


另外 ， 词 频 标准 化 的 方法 不 止 一 种 ，Lucene 中 采用 了 另外 一 种 词 频 标准 化 方法 : 


Atha) = | 单词 在 文档 中 出 现 的 次 数 


Atha) = 


文档 频率 用 df (document frequency) 表示， 代表 文档 集中 包含 某 个 词 的 所 有 文档 数目 。 
df 通常 比较 大 ， 把 它 映射 到 一 个 较 小 的 取 值 范围 ,用 逆 文 档 频率 Cinverse document frequency, 
缩写 为 idf) 来 表示 : 


文档 集 总 的 文档 数 N 
道 文档 频率 (iz 太 = log (EAE | =iog 人 — 
rei) = loq (Speen) "E (3) 


上 式 中 分 母 越 大 ， 说 明 该 词 越 常见 ， 逆 文档 频率 越 小 。 分 母 中 文档 数 加 1 是 进行 平滑 处 
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EE， 防止 所 有 文档 都 不 包含 某 个 词 时 分 母 为 0 的 情况 发 生 。 词 项 的 权重 用 TF-IDF 来 表示 ， 计 
算 公式 如 下 : 


ie 


tf — idf = WIS, a) * 逆 文 档 频 率 (idf) 
通过 tidf 可 以 把 文档 表示 成 mn 维 的 词 项 权重 向 量 : 
document vector =(W,, Wz» ... Wp) 


计算 词 项 的 tidf 的 Java 代码 如 代码 清单 1-1 所 示 。 在 TfldfCal 类 中 依次 定义 了 计算 词 项 
频率 长 文档 频率 df、 逆 文档 频率 idf、tf-idf 的 方法 ， 在 main 方法 中 以 表 1-4 中 的 文档 作为 测 
试 的 文档 集合 ， 最 后 依次 输出 “谷歌 ”的 词 项 频率 、 文 档 频 率 和 tfidf 值 。 


代码 清单 1-1 


import java.util.Arrays; 


import java.util.List; 
public class TfIdfCal { 
public double tf(List<String> doc, String term) { 
double termFrequency = 0; 
for (String str : doc) { 
if (str.equalsIgnoreCase(term)) { 


termFrequency++; 


} 
return termFrequency / doc.size(); 


public int df(List<List<String>> docs, String term) { 
int n = 0; 
if (term != null && term != "") { 
for (List<String> doc : docs) { 
for (String word : doc) ( 
if (term.equalsIgnoreCase(word)) { 
ntt; 


break; 


) 
) else ( 
System.out.println ("term 不 能 为 null RETE"); 


return n; 


public double idf(List<List<String>> docs, String term) { 
return Math.log(docs.size() / (double) df (docs, term) +1) ; 


public double tfIdf(List<String> doc, List<List<String>> 
docs, String term) { 


return tf(doc, term) * idf(docs, term); 


public static void main(String[] args) ( 

List<String> docl = Arrays.asList("A L", "fe", "RA", 
"互联 网 "，" 大 会 "，" 焦 点 ") ; 

List<String> doc2 = Rrrays.asList(" 谷 歌 "，" 推 出 "， "HH", 
"AL", "Bi", "RA", "IAS; 

List<String> doc3 = Rrrays.asList(" 互 联网 "，" 的 "，" 未 来 "， 
"在 "，" 人 工 "，" 智 能 ") ; 

List<String> doc4 = Arrays.asList ("谷歌 "，" 开 源 "，" 机 器 "， 
nn "LR"; 

List<List<String>> documents = Arrays.asList(docl, doc2, 
doc3,doc4) ; 

TfIdfCal calculator = new TfIdfCal(); 

System.out.println(calculator.tf(doc2, "谷歌 ") ); 

System.out.println(calculator.df (documents, "谷歌 ")); 

double tfidf = calculator.tfIdf(doc2, documents, "谷歌 "); 

System.out.println("TF-IDF (谷歌 ) = " + tfidf); 


1.6 -向量 空间 模型 


a 


量 空间 模型 (Vector Space Model, VSM) 在 上 世纪 70 4E fi BUE zs Us 2336 A. Salton 
教授 提出 , 并 成 功 地 应 用 于 著名 的 SMART 文本 检索 系统 。 把 对 文本 内 容 的 处 理 简化 为 向 量 空 
间 中 的 向 量 运 算 , 它 以 空间 上 的 相似 度 表达 语义 的 相似 度 ， 直观 易 懂 。 当 文档 被 表示 为 文档 空 
间 的 向 量 , 就 可 以 通过 计算 向 量 之 间 的 相似 性 来 度量 文档 间 的 相似 性 。 向 量 空 间 模型 的 数学 理 
论 基 础 是 余弦 相似 性 理论 ， 下 面 我 们 先 从 数学 推导 上 认识 余弦 相似 性 理论 。 

在 同一 个 N 维 空间 中 存在 两 个 非 零 向 量 A 和 B: 


EA WEA i Xo Xy XqsjUXàa2» Xn) 
Æ BidfEBe(ye yor Ys Yá- Yn” Yo) 


量 A 和 B 的 夹 角 为 6， 那么 由 夹 角 公式 可 得 : 


a 


E 


E 


El 
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A-B Xi Xi * Vi 
HAMIBI 26? * X207? 


夹 角 余弦 值 cos? 是 与 向 量 的 长 度 无 关 的 , 仅仅 与 向 量 的 指向 方向 相关 。 当 A 向 量 和 B 向 
量 方向 完全 相同 时 ， 那 么 两 个 向 量 之 间 的 夹 角 为 0，cos9= 1: “4A 向 量 和 B 向 量 方向 完全 相 
反 时 ， 那 么 两 个 向 量 之 间 的 夹 角 为 180 度 ，cosb = 一 1; 当 A 向 量 和 B. 向 量 互相 垂直 时 ， 即 
夹 角 为 90 BE, cosO = 0. 0 度 角 的 余弦 值 是 1， 而 其 他 任何 角度 的 余弦 值 都 不 大 于 1， 并 且 其 
最 小 值 是 一 1, 从 而 通过 两 个 向 量 之 间 的 角度 的 余弦 值 确定 两 个 向 量 是 否 大 致 指向 相同 的 方向 。 
用 向 量 夹 角 余弦 值 来 衡量 相似 度 : Sim(4，B)= cose 

余弦 相似 度 通常 用 于 正 空 间 ， 因 此 给 出 的 值 为 0 到 1 之 间 。 如 图 1-3 所 示 , 假设 有 两 个 文 
档 docl 和 doc2，docl 和 doc2 在 向 量 空 间 中 分 别 用 向 量 dy 和 向量 dy KAA 


cos@ 


a idi 


a 


图 1-3 文档 向 量 和 查询 向 量 
关键 词 查询 向 量 为 4, 四 和 4 RAH a dM q 的 夹 角 为 9。 通 过 计算 cos(d1，g) 得 出 查 


询 向 量 和 docl 之 间 的 相似 性 : 


cosa — dg 
CARCI 
计算 cos (dj, q) 得 出 查询 向 量 和 doc2 之 间 的 相似 性 : 
= dj:q 
059 "Wr 


比较 cosa 和 cosd 的 大 小 可 以 得 出 文档 1 和 文档 2 RSA PEA Oe Bb A EEK. AUR 
似 性 理论 除了 应 用 在 信息 检索 模型 中 以 外 , 在 文本 挖掘 领域 可 用 于 文件 比较 , 在 数据 挖掘 领域 
中 可 以 用 来 度量 集群 内 部 的 凝聚 力 , 在 推荐 系统 中 可 以 用 来 比较 用 户 偏好 的 相似 性 。 相 对 于 标 
准 布 尔 模型 ， 向 量 空间 模型 具有 如 下 优点 : 


e 基于 线性 代数 的 简单 模型 。 

词组 的 权重 不 是 二 元 的 。 

文档 和 查询 之 间 的 相似 度 取 值 是 连续 的 。 
允许 根据 文档 间 可 能 的 相关 性 来 进行 排序 。 
允许 局 部 匹配 。 
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向 量 空间 模型 的 Java 实现 计算 见 代 码 清单 1-2。 在 Vsm 类 中 实现 了 一 个 静态 的 方法 用 于 
计算 两 个 向 量 的 夹 角 ， 传 入 参数 为 两 个 Map， 在 main 函数 中 给 出 了 测试 案例 。 


代码 清单 1-2 


import java.util.HashMap; 


import java.util.HashSet; 


import java.util.Map; 


import java.util.Set; 


public class Vsm { 


public static double calCosSim(Map<String, Double» vl, 


) 


Map<String, Double» v2) { 
double sclar = 0.0,norm1=0.0,norm2=0.0,similarity=0.0; 
Set<String> vlKeys = vl.keySet(); 
Set<String> v2Keys v2.keySet (); 
Set<String> both= new HashSet<>(); 
both.addAll(vlKeys); 
both.retainAll(v2Keys); 
System.out.println (both); 
for (String strl : both) { 
sclar += vl.get(strl) * v2.get(strl); 


) 

for (String strl:vl.keySet())( 
norml4*-Math.pow(vl.get(strl),2); 

} 

for (String str2:v2.keySet()) { 
norm2+=Math.pow(v2.get(str2),2); 

} 

similarity-sclar/Math.sqrt (norml*norm2); 

System.out.println("sclar:"*sclar); 

System.out.println("norml:"-*norml); 

System.out.println("norm2:"-*norm2); 

System.out.printin("similarity:"+similarity) ; 


return similarity; 


public static void main(String[] args) { 


Map<String, Double» ml = new HashMap<>(); 
ml.put("Hello", 1.0); 

ml.put("css", 2.0); 

ml.put("Lucene", 3.0); 


Map<String, Double» m2 = new HashMap<>(); 
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m2.put ("Hello", 1.0); 
m2.put("Word", 2.0); 
m2.put ("Hadoop", 3.0); 
m2.put ("java", 4.0); 
m2.put("html", 1.0); 
m2.put("css", 2.0); 
calCosSim(ml, m2); 


} 


事实 上 ，Lucene PAVE SPL s n $2 AR, BRA SARS] SAAS Hag I FH PRACT A AST ER 
因素 。 实 际 的 评分 公式 如 下 : 


Score(q,d) = coord(q, d) * queryNorm(q) * X; in «(tf * idf (t)? * t. getBoost() * 


norm(t, d)) 


© coord(q,q): 评分 因子 ， 其 值 为 出 现 查询 词 项 占 文档 的 百分比 ， 一 个 文档 中 出 现 查询 词 项 的 
个 数 越 高 ， 文 档 匹配 程度 越 高 。 

e querynorm(q): 查询 的 标准 因子 ， 目 的 是 使 不 同 的 查询 之 间 可 比较 ， 所 有 的 排序 文档 都 会 
乘 以 这 个 因子 ， 因 此 不 会 影响 文档 的 排序 。 

tf: 文档 频率 。 
idf; 逆 文档 频率 。 
tgetboost(): 查询 时 期 的 附加 权重 。 
norm(td): 索引 时 期 的 权重 和 长 度 因子 。 


整体 而 言 ， 上 述 公式 仍然 是 基于 给 idf 和 向 量 空间 模型 的 相似 度 计 算 。 但 是 向 量 空间 模型 
仍然 存在 一 些 缺点 ， 比 如 长 文档 的 tf 一 般 会 越 高 ， 呈 正 相 关 性 ， 对 短文 档 不 公平 ， 而 且 查询 
词 之 间 并 不 是 完全 独立 的 。 基 于 此 ， 排 序 模型 也 在 不 断 改 进 和 完善 之 中 。 


1.7 ”概率 检索 模型 


e ME o 


概率 检索 模型 从 概率 排序 原理 推导 而 来 ， 是 一 种 直接 对 用 户 需求 相关 性 进行 建 模 的 方法 ， 
其 基本 思想 是 :给 定 一 个 查询 ,返回 的 文档 能 够 按照 查询 和 用 户 需求 的 相关 性 得 分 高 低 来 排序 。 
目前 最 成 功 的 概率 检索 模型 是 BM25 (Best Match 25) 模型 ， 发 展 于 1970 年 到 1980 年 之 间 ， 
目前 很 多 商业 搜索 引擎 使 用 的 都 是 1994 年 在 BM25 的 基础 上 进行 改进 的 Okapi BM25 模型 。 
下 面 从 概率 基础 推导 BM25 的 评分 公式 。 


1.7.1 贝 叶 斯 决策 理论 


概率 检索 模型 的 数学 基础 是 贝 叶 斯 决策 理论 ， 推 导 BM25 模型 的 评分 公式 先 从 贝 叶 斯 公 
式 开 始 。 我 们 知道 ， 概 率 是 对 随机 事件 发 生 的 可 能 性 的 度量 ， 取 值 为 0~1， 比 如 抛 一 枚 硬币 ， 
正面 朝 上 的 可 能 性 和 反面 朝 上 的 可 能 性 都 是 0.5。 条 件 概 率 是 指 在 某 些 前 提 条 件 下 的 概率 问题 ， 
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在 事件 A 发 生 的 前 提 下 事件 B 发 生 的 概率 记 为 P(8|4)。 联 合 概 率 是 指 两 个 事件 同时 发 生 的 概 
率 , 事件 A 和 事件 B 相互 独立 ， 那么 A 和 B 同时 发 生 的 概率 记 为 P(4B), 显然 P(4B)=P(B4)。 
A 和 B 同时 发 生 的 概率 等 于 事件 A 发 生 的 前 提 下 事件 B 发 生 的 概率 ， 即 : 


P(AB) = P(B|A)P(4) 
A 和 B 同时 发 生 的 概率 也 等 于 事件 B 发 生 的 前 提 下 事件 A 发 生 的 概率 ， 即 : 
P(AB) = P(A|B)P(B) 


P(AB)-P(BA), FELA: 
P(B|A)P(A) = P(AIB)P(B) 
两 边 同 时 除 以 P(B), "I: 


P(B|A)P(A) 
P(B) 


上 式 即 为 贝 叶 斯 公式 ， 贝 叶 斯 决策 理论 在 机 器 学 习 、 自 然 语 言 处 理 等 领域 被 广泛 应 用 ， 
在 海量 数据 的 文本 分 类 问题 (比如 垃圾 邮件 、 垃 圾 短信 的 甄别 和 过 滤 ) 上 能 取得 非常 好 的 效果 ， 
其 核心 思想 是 选择 高 概率 对 应 的 类 别 。 

以 图 1-3 为 例 ， 数 据 集中 有 实心 圆 和 空心 圆 两 类 数据 ， 假 设 数据 集 的 统计 参数 已 知 ， 给 出 
一 个 新 的 数据 点 A(x, y) Pa, VERA A 属于 实心 圆 的 概率 ，P(x, y) 表 示 点 A 属于 空心 圆 的 
概率 ， 如 果 Pix, y) Py. y). MARA 极 有 可 能 属于 实心 圆 ， 反 之 属于 空心 圆 。 

概率 检索 模型 把 用 户 查询 和 要 查询 的 文档 集 作为 一 个 贝 叶 斯 分 类 问题 ， 对 于 任意 的 一 个 
查询 ,文档 集 可 以 划分 为 与 查询 相关 和 与 查询 不 相关 两 类 。 对 于 文档 D，P(RID) 代 表 文 档 属于 
相关 文档 集 的 概率 ，P(NRID) 代 表 文 档 属于 不 相关 文档 集 的 概率 ， 如 果 P(RID)>P(NRID)， 可 以 
认为 文档 D 和 用 户 查 询 相 关 ， 反 之 不 相关 ， 如 图 1-4 所 示 。 


P(A|B) = 


P(R|D)>P(NRID) 
P(NRID)>P(RID) 
用 户 查询 
图 1-3 数据 分 布 图 图 1-4 贝 叶 斯 分 类 
问题 的 关键 是 如 何 比 较 P(RID) 和 P(NRID) 的 大 小 ， 由 贝 叶 斯 公式 可 得 : 
_ PDIR)P(R) 
py 


P(D|NR)P(NR) 


P(NR|D) = PO) 
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比较 P(RID)> P(NRID)， 等 价 于 : 
P(D|R)P(R) _ P(D|NR)P(NR) 
PD ^ PO) 
由 于 PLD) 是 相同 的 ， 左 右 两 边 消去 ， 等 价 于 P(DIR)P(R)>P(DINR)P(NR)， 左 右 两 边 同时 
再 除 以 PLDINR)P(R)， 转 换 为 如 下 形式 : 
P(D|R) _ P(NR) 
P(DINR)~ P(R) 


P(D|R) 


TENERE IURE, RAR E E LOM we ee HE FON mp, HEE HO n HT 
P(D|R) 5j PLDINR)。 


17.2 ”二 值 独立 模型 


二 值 独立 模型 (Binary Independence Model， 简 称 BIM) 也 是 一 种 概率 检索 模型 ， 通 过 做 
出 一 些 假设 估算 文档 或 者 查询 的 相似 性 概率 ,二 值 独立 模型 中 的 二 值 是 指 文档 和 查询 都 表示 成 
词 项 出 现 与 否 的 布尔 向 量 ， 词 项 出 现 记 为 1， 词 项 不 出 现 记 为 0。 独立 是 指 假设 词 项 在 文档 中 
的 出 现 是 相互 独立 的 , 通过 对 词 项 的 独立 性 假设 可 以 用 数学 的 方法 描述 文本 , 把 文档 频率 转换 
为 词 项 概率 的 乘积 ， 即 


PCDIR) = P(w wa w)]R) = | | Peto 
winD 
假设 查询 中 有 5 个 关键 词 ， 文 档 D 中 只 出 现 了 第 1 个 、 第 3 ES 个 ， 那 么 通过 二 值 
假设 ，D 可 以 表示 为 {L.0.1.0.1}， 用 表示 第 个 单词 出 现在 相关 文档 集合 中 的 概率 ， 相 关 文 
档 集合 中 出 现 文档 D 的 概率 可 表示 为 ， 
P(D|R) = P, * (1 — P?) + P * (1 — P4) * Ps 
同样 , 对 于 假设 5 FCRCR i PLEAS HR SCS HER TRA ISIC h 
现 文档 D 的 概率 可 表示 为 : 
P(DINR) = S1 + (1 = S2) * Sa * (1-54) Ss 


B P(D|R) 
计算 P(DINR) : 
P(D|R) Pi* (1 — P5) * P5* (1 — P4) * Ps 
P(D|NR) Sı * (1 — S2) * S3 * (1— S4) * Ss 
-RE mo 的 计算 公式 如 下 : 
P(D|R) 
P(D|NR) - - [Is [| 二 


其 中 让 Di1 表示 单词 在 文档 D 中 出 现 ，FDF0 表示 单词 在 文档 D 中 不 出 现 。 进 一 步 进行 等 价 
ai, epii qe * Minio me) = 1 
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P(D|R) (T1 i=) (TI 1-P; =) 
" s 7 
PONR) (LAS AA 1P 1-5, I=$ 


i:Di=1 i:Di=0 


最 终 得 到 计算 结果 : 
POUR) _ py PU =So 
P(DINR) $A S(1—P) 


等 式 两 边 同 时 取 对 数 得 到 相关 性 计算 公式 : 
` p — Si) 
ipi=1 —Si(1 — Pi) 
相关 性 公式 中 只 有 PA GRA, PA 8 分 别 代表 第 i 个 单词 在 相关 文档 集合 中 出 现 和 不 
出 现 的 概率 ， 对 于 一 个 已 知 的 查询 , 总 的 文档 集中 要 么 是 和 该 查询 相关 的 ， 要 么 是 和 该 查询 不 
相关 的 ， 根 据 相 关 与 否 文档 集 可 分 为 两 类 ; 同时 ， 对 于 一 个 查询 ， 总 的 文档 集合 中 的 文档 要 么 
是 包含 查询 关键 词 的 , 要 么 是 不 包含 查询 关键 词 的 , 根据 文档 的 包含 与 否 文档 集 也 可 以 分 为 两 
类 。 综 上 可 得 表 1-7， 其 中 总 文档 集合 为 Y， 相 关 文档 数量 为 R， 包 含 单词 i 的 文档 数量 为 n 
相关 文档 中 包含 单词 i 的 文档 为 rio 


表 1-7 文档 集 分 类 表 
相关 文档 集 不 相关 文档 集 文档 数量 


包含 单词 (dol) 
不 包含 单词 i(d=0) 
文档 数量 


如 果 已 知 N、R、ni;、ri， 即 可 计算 Pi 和 Si 
— 包含 单词 的 相关 文档 数量 omn 


i= 


总 的 相关 文档 数量 R 
“包含 单词 :的 不 相关 文档 数量 min 
总 的 不 相关 文档 数量 N-R 


如 果 r=0, VW P=0， 相 关 性 计算 公式 中 就 会 出 现 log(0) 的 情况 ， 因 此 需要 进行 平滑 处 理 ， 
在 分 子 上 加 上 常数 0.5， 分 母 上 加 上 常数 1， 最 终 : 
(ri + 0.5) (ni — r; + 0.5) 
iT RIl CC N-R41 


带 入 相关 性 计算 公式 可 得 : 


(n+0.5)/(R—n+0.5) 
(ni — ri + 0.5)/(N — R —nj +r; + 0.5) 


log 
i:q;=d;=1 
上 述 公式 即 为 通过 二 值 独立 模型 计算 用 户 查 询 和 文档 相关 性 的 方法 ， 其 含义 就 是 累加 同时 
出 现在 用 户 查 询 和 文档 D 中 的 概率 ， 累 加 结果 即 为 查询 和 文档 的 相关 度 。 
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17.3 Okapi BM25 模型 


二 值 独立 模型 计算 相关 性 的 实际 应 用 效果 并 不 理想 , 因为 二 值 假设 只 考虑 了 单词 在 文档 中 
的 出 现 与 否 ， 没 有 考虑 单词 的 权重 ，BM25 模型 在 此 基础 之 上 进行 了 改进 ， 把 idf 因子 、 文 档 
长 度 、 文 档 词 频 、 查 询 词 频 等 因素 统统 考虑 进去 ，BM25 模型 的 评分 公式 如 下 : 


oe (ri + 0.5)/(R — r; + 0.5) Gat Dfi (ke + Difeg 
"J9mr-n405)/(N-R-n *n405) Kif kzt tfa 


ieQ 


其 中 cet [(a meon) 


对 查询 Q 进行 分 词 ， 依 次 计算 每 个 单词 在 文档 D 中 的 分 值 ， 累 加 后 即 为 查询 Q 下 文档 D 
的 得 分 。 上 述 公式 分 为 三 个 部 分 ， 第 一 部 分 为 二 值 独立 模型 中 推导 出 来 的 相关 性 计算 公式 ;第 
二 部 分 是 查询 词 在 文档 D 中 的 权重 , 代表 单词 在 文档 D 中 的 词 频 , ky 是 经 验 参数 ，K 是 对 文 
档 长 度 的 考虑 ，h 和 b 都 是 经 验 参数 ;公式 第 三 部 分 是 查询 词 自身 的 权重 ，tfiy 是 词 项 1 在 查询 
Q 中 的 词 频 , 是 一 个 取 正 的 调 优 参 数 ， 用 于 对 查询 中 的 词 项 频率 进行 缩放 。h 取 0 时 ,公式 
的 第 二 部 分 为 1， 此 时 不 考虑 词 频 的 因素 ，b 取 0 时 表示 忽略 文档 长 度 因素 ， 取 0 时 表示 不 
考虑 词 项 在 查询 中 的 权重 。 在 没有 根据 开发 测试 集 进 行 优化 的 情况 下 ， 已 有 的 实验 结果 表明 
参数 的 合理 取 值 范围 是 ，h 的 取 值 区 间 为 1.2~2，b 取 0.75, ko HR O~1000, ko WERK EA 
查询 一 般 较 短 ， 不 同 查询 词 的 词 频 较 小 ， 较 大 的 调节 参数 值 可 以 对 词 频 之 间 的 差异 进行 放大 。 


17.4 BM25F 模型 


Okapi BM25 模型 提出 之 后 被 广泛 应 用 ,在 计算 相关 性 的 时 候 只 是 把 文档 当 作 整 体 来 考虑 ， 
但 是 并 没有 考虑 文档 不 同 域 (也 就 是 字段 ) 的 权重 差异 , 结构 化 的 数据 会 被 切 分 成 多 个 独立 的 
域 ， 以 网 页 为 例 ， 网 页 有 标题 、 摘 要 、 主 题词 、 内 容 等 域 ， 很 显然 网 页 标题 是 对 一 个 网 页 内 容 
的 高 度 概括 ， 标 题 中 关键 词 的 权重 很 显然 要 比 网 页 内 容 中 的 关键 字 权重 高 。BM25F 在 BM25 
的 基础 上 做 了 一 些 改进 ， 把 单词 在 文档 域 中 的 权重 得 分 考虑 进去 。BM25F 的 计算 公式 如 下 : 
(ri + 05)/(R — r; + 0.5) fi 
Qu -n4-05)/(N-R-m4n405) k+ fi 


EX D &-(a- bebe =.) 
e avgul, 


公式 中 的 第 一 部 分 还 是 二 值 独立 模型 的 评分 ， 万 "代表 第 了 个 单词 在 u 个 域 中 的 得 分 之 和 ， 
wt 代表 为 每 个 域 设 定 的 权 值 , fi 代表 第 i 个 单词 在 第 个 域 中 的 词 频 , B, AES u 个 域 的 长 度 因 
Ro 在 B, 的 计算 公式 中 ，bs 是 调节 因子 ， 对 于 不 同 的 域 要 设 定 不 同 的 调节 因子 ,ul 是 第 w 个 
域 的 实际 长 度 ，avguh 是 文档 集中 这 个 域 的 平均 长 度 。 


log 
iqi=di=1 
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1.8 ”本章 小 结 


这 一 章 作为 本 书 的 第 一 章 ， 介 绍 了 信息 过 载 和 信息 检索 的 概念 以 及 信息 检索 中 的 常用 术 


语 , 之 后 介绍 了 分 词 的 
介绍 了 检索 模型 中 的 布 
通过 本 章 的 学 习 ， 读 者 


原理 与 分 词 算法 ， 重 点 介绍 了 搜索 引擎 中 倒 排 索引 这 种 数据 结构 ， 最 后 
尔 检索 模型 、tfidf 词 元 权重 计算 、 向 量 空间 模型 以 及 概率 检索 模型 。 
应 该 能 了 解 Lucene 的 数学 模型 ， 知 其 然 也 知 其 所 以 然 。 


Lucene FÈN] 


本 章 学 习 要 点 : 

* Lucene 简介 * Lucene 索引 详解 

% Lucene 特点 和 架构 * Lucene 查询 详解 

* Lucene 开发 准备 * Lucene 搜索 高 亮 

* Lucene 分 词 详解 灾 Lucene 新 闻 高 频 词 提取 案例 


2.1 Lucene 概述 


2.1.1 Lucene 简介 


Lucene 是 一 个 开源 的 全 文 检索 引擎 工具 包 ， 最 初 由 Doug Cutting 开发 。 早 在 1997 4E, Vt 
深 全 文 检索 专家 Doug Cutting 用 一 个 周末 的 时 间 ， 使 用 Java 语言 创作 了 一 个 文本 搜索 的 开源 
函数 库 ， 目 的 是 为 各 种 中 小 型 应 用 软件 加 入 全 文 检索 功能 。 不 久之 后 ，Lucene 诞生 了 ，2000 
年 Lucene 成 为 Apache 开源 社区 的 一 个 子 项 目 。 随 着 Lucene 被 人 们 熟知 ， 越 来 越 多 的 用 户 和 


研发 人 员 加 入 其 中 ， 完 善 并 壮大 项 目的 发 展 ， 
和 索引 引擎 的 全 文 检索 库 。 


2.1.2 Lucene 特点 


Lucene 从 问世 之 后 ， 引 发 了 开源 社区 的 
用 ， 而 且 将 之 集成 到 各 种 系统 软件 中 去 ， 除 


也 采用 了 Lucene 作为 全 文 索引 引擎 。Lucene 


Lucene 已 成 为 最 受 欢迎 的 具有 完整 的 查询 引擎 


巨大 反响 ， 程 序 员 们 不 仅 使 用 它 构 建 全 文 检索 应 
之 外 还 用 来 构建 Web 应 用 。 维 基 百 科 用 Lucene 


建立 了 一 个 站 内 的 强大 搜索 功能 , 用 以 检索 站 内 数 以 千 万 的 词 条 。IBM 的 商业 软件 Web Sphere 


以 其 开放 源 代码 的 特性 、 优 异 的 索引 结构 、 良 好 


内 系统 架构 获得 了 越 来 越 多 的 应 用 。Lucene 的 优点 主要 有 以 下 3 点 : 
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. 稳定 ， 索 引 性 能 高 


现代 硬盘 上 每 小 时 能 够 索引 150GB 以 上 的 数据 。 
对 内 存 的 要 求 小 一 一 只 需要 IMB 的 堆 内 存 。 

增 量 索引 和 批量 索引 一 样 快 。 

索引 的 大 小 约 为 索引 文本 大 小 的 20% 一 30%。 


. 高 效 、 准 确 、 高 性 能 的 搜索 算法 


搜索 排名 一 一 最 好 的 结果 显示 在 最 前 面 。 

许多 强大 的 查询 类 型 : 短语 查询 、 通 配 符 查询 、 近 似 查询 、 范 围 查 询 等 。 
对 字段 级 别 搜索 (如 标题 ， 作 者 ， 内 容 )。 

可 以 对 任意 字段 排序 。 

支持 搜索 多 个 索引 并 合并 搜索 结 

mi ny 

灵活 的 切面 、 高 亮 、join 和 group by 功能 

速度 快 ， 内 存 效率 高 ， 容 错 性 好 。 

可 选 排序 模型 ， 包 括 向 量 空间 模型 和 BM25 模型 。 

可 配置 存储 引擎 。 


. 跨 平台 解决 方案 


作为 Apache 开源 许可 ， 在 商业 软件 和 开放 程序 中 都 可 以 使 用 Lucene。 
100% 纯 Java 编写 。 


e 对 多 种 语言 提供 接口 。 


2.1.3 


Lucene 架构 


先 从 整体 上 看 一 下 Lucene 的 架构 设计 。 图 2-1 是 Lucene 的 整体 架构 图 ， 是 对 Lucene 精 
髓 的 概括 ， 理 解 了 这 张 图 就 从 整体 上 把 握 住 了 Lucene. 
先 看 上 层 应 用 ， 首 先是 信息 采集 的 过 程 ， 文 件 系统 、 数 据 库 、 万 维 网 以 及 手工 输入 的 文 
件 都 可 以 作为 信息 采集 的 对 象 , 也 是 要 搜索 的 文档 的 来 源 , 采集 万 维 网 上 的 信息 一 般 使 用 网 络 


疏 虫 。 完 成 信息 采集 之 后 到 Lucene 层面 
过 程 完成 由 原始 文档 到 倒 所 


系列 过 程 之 后 返回 用 户 想 要 的 文档 。 


主要 有 两 大 任务 : 索引 文档 和 搜索 文档 ， 索 引文 档 的 
索引 的 构建 过 程 , 搜索 文档 用 以 处 理 用 户 查 询 。 应 用 层 的 第 三 部 分 
就 是 用 户 接口 ， 用 户 输入 查询 关键 词 ，Lucene 完成 文档 搜索 任务 ， 经 过 分 词 、 匹 配 、 
排序 等 一 


评分 、 


一 次 完整 的 搜索 从 用 户 输入 要 查询 的 关键 词 开始 ， 比 如 想 查找 Lucene 的 相关 学 习 资 料 ， 
我 们 都 会 在 Google 或 百度 等 搜索 引擎 中 输入 关键 词 ， 比 如 输入 “Lucene， 人 全文 检索 框架 ”， 
之 后 系统 根据 用 户 输入 的 关键 词 返回 相关 信息 。 一 次 检索 大 致 可 分 为 4 步 : 
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Application 


Lucene 


2-1 Lucene 架构 图 


第 一 步 : 查询 分 析 


正常 情况 下 用 户 输入 正确 的 查询 ， 比 如 搜索 “里 约 奥运 会 ”这 个 关键 词 ， 用 户 输入 正确 
完成 一 次 搜索 , 但 是 搜索 需求 通常 都 是 全 开放 的 ， 任 何 的 用 户 需求 都 是 有 可 能 的 ， 很 大 一 部 分 
还 是 非常 口语 化 和 个 性 化 的 ,有 时 候 还 会 存在 拼写 错误 ， 如 图 2-2 所 示 , 用 户 不 小 心 把 “淘宝 ” 
打 成 “ 涛 宝 ”， 这 时 候 需 要 用 自然 语言 处 理 技术 来 做 拼写 纠 错 等 处 理 ， 以 正确 理解 用 户 需求 。 


Google #2 H 


全 部 图 片 新 闻 视频 更 多 搜索 工具 


找到 约 390,000,000 KR 〈 用 时 0.34 W) 


显示 的 是 以 下 查询 字 词 的 结果 : 淘宝 
仍然 搜索 : WE 


图 2-2 搜索 引擎 拼写 纠正 
第 二 步 : 分 词 技术 


这 一 步 利 用 自然 语言 处 理 技术 将 用 户 输入 的 查询 语句 进行 分 词 , 如 标准 分 词 会 把 “lucene， 
全 文 检索 框架 ”分 成 : lucene | 全 | 文 | 检 | 索 | 框 | 架 |， 空 格 分 词 会 分 成 : lucene, | 全 
文 检索 框架 | ， 二 分 法 会 分 成 : lucene | 全 文 | 文 检 | 检索 | 索 框 | 框架 |， 还 有 简单 分 词 
等 多 种 分 词 方法 。 


第 三 步 : 关键 词 检 索 


提交 关键 词 后 在 倒 排 索引 库 中 进行 匹配 ， 倒 排 索引 就 是 关键 词 和 文档 之 间 的 对 应 关系 ， 
就 像 给 文档 贴 上 标签 。 比 如 在 文档 集中 含有 lucene 关键 词 的 有 文档 1、 文 档 6、 文 档 9， 含 有 


第 2 章 Lucene 开发 入 门 25 


全 文 检索 的 有 文档 1、 文 档 6， 那 么 做 与 运算 ， 同 时 含有 lucene 和 全 文 检 索 的 文档 就 是 1 和 6， 


在 实际 的 搜索 中 会 有 更 复杂 的 文档 匹配 模型 。 
第 四 步 : 搜索 排序 


对 多 个 相关 文档 进行 相关 度 计算 、 排 序 ， 返 回 给 用 户 检索 结果 。 


2.2.1 


BR 


以 


2.2 Lucene 开发 准备 


下 载 Lucene 文件 库 


首先 访问 Lucene 的 官方 网 站 Chttps://lucene.apache.org/) ， 下 载 Lucene 文件 库 ， 其 网 站 
页 面 如 图 2-3 所 示 。 


Large, Vibrant community 


The goal of Apache Lucene and Solr is to provide world 


class search capabilities 


Welcome to Apache Lucene 


‘The Apache Lucene™ project develops open-source search software, including: 


* Lucene Core, our flagship sub-project, provides Java-based indexing and search technology, as well as 
spelichecking, hit highlighting and advanced analysis tokenization capabilities. 

* Solr™ is a high performance search server built using Lucene Core, with XML/HTTP and 
JSON/Python/Ruby APIs, hit highlighting, faceted search, caching, replication, and a web admin interface. 

* PyLucene is a Python port of the Core project. 


图 2-3 Lucene 下 载 页 面 


在 首页 即 可 看 到 一 绿 一 红 两 个 下 载 按钮 ， 单 击 绿色 DOWNLOAD 按钮 会 跳 转 到 Lucene 
下 载 页 ， 单 击 红 色 DOWNLOAD 会 跳 转 到 Solr 下 载 页 。 

这 里 有 必要 对 Lucene 和 Solr 进行 说 明 ，Lucene 是 一 个 做 全 文 检索 的 库 ， 开 发 者 可 以 拿 来 
根据 实际 业务 需求 进行 使 用 ,而 Solr 是 一 个 基于 Lucene 的 全 文 搜索 服务 器 。Solr 是 在 Lucene 
的 基础 上 进行 扩展 ， 并 且 提 供 了 更 加 丰富 的 查询 语言 ， 可 扩展 性 和 可 配置 性 比 Lucene 更 高 。 


本 


之 外 Solr 还 提供 了 一 个 完善 的 管理 界面 ， 是 一 个 产品 级 的 全 文 搜索 引擎 。 

官网 首页 提供 了 最 新 版 本 的 下 载 链接 ， 访 问 http://archive.apache.org/dist/lucene/java/， 可 
下 载 Lucene 所 有 的 发 行 版 本 ， 其 页 面 如 图 2-4 所 示 。 
基于 Lucene 6.0.0 版 本 进行 讲解 ， 下 拉 找 到 6.0.0 文件 夹 ， 打 开 后 界面 如 图 2-5 所 示 。 
下 载 列表 中 的 lucene-6.0.0.zip (或 者 lucene-6.0.0.tgz) ， 下 载 完 成 以 后 不 需要 任何 安装 ， 


解压 缩 即 可 。 如 果 想 阅读 和 学 习 Lucene 源码 ， 可 以 下 载 src 版 本 ， 即 lucene-6.0.0-sre.tgz. 
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Index of /dist/lucene/java 


Nane Last modified 


Parent Directo: 
2013-01-16 12:49 
2011-03-30 13:18 
2011-03-30 13:25 
2011-06-03 14:00 
2011-06-30 05:19 
2011-09-13 15:41 
2011-11-25 23:23 
2012-04-11 20:03 
2012-07-21 17:39 
2013-01-16 12:44 
2012-06-29 01:56 
2012-08-10 11:26 
2013-01-16 12:33 
2013-01-21 20:36 
2014-09-02 22:00 


2-4 Lucene 下 载 列表 


Index of /dist/lucene/java/6.0.0 


Nene Last modified Size Description 
> Parent Directory z 
© chances/ 2016-04-07 15:06 - 
@ rs 2016-04-01 20:42 160K 


à lucene-6.0.0-src.tez 2016-04-01 20:42 28M 
图 lucene-6.0.0-src.tez.asc 2016-04-01 20:42 819 
9 lucene-6.0.0-src.tgz.mdS 2016-04-01 20:42 55 
a lucene-6.0.0-sre.tgz.shal 2016-04-01 20:42 — 63 


Ò lucene-6.0.0.tgz 2016-04-01 20:42 — 63M 
lucene-6.0.0.tgz.asc 2016-04-01 20:42 819 
lucene-6.0.0.tgz.mdS 2016-04-01 20:42 51 
e lucene-6.0.0.tgz.shal 2016-04-01 20:42 59 
à lucene-6.0.0.zip 2016-04-01 20:42 74M 


图 lucene-6.0.0.2ip.asc 2016-04-01 20:42 819 
a lucene-6.0.0.2ip.mdS 2016-04-01 20:42 51 
国 rucene-6.0.0.zip.shal 2016-08-01 20:42 59 


图 2-5 Lucene6.0 下 载 页 面 
2.2.2 工程 中 引入 Lucene 
在 工程 中 引入 Lucene 有 两 种 方式 ， 第 一 种 是 传统 的 手工 导入 jar 包 的 方法 ， 第 二 种 是 使 


用 maven 管理 。 


e 手工 导入 jar 包 
以 添加 Lucene 核心 模块 为 例 ， 找 到 lucene-6.0.0/core/lucene-core-6.0.0jar， 添 加 到 工程 中 即 可 。 
e 添加 maven 依赖 
到 maven 仓库 (http://mvnrepository.com/) 中 搜索 关键 词 Lucene, 如 图 2-6 所 示 。 获 取 Lucene 
模块 的 maven 坐标 ， 添 加 到 maven 工程 的 pom.xml 文件 中 即 可 。 
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H 


例如 


人 Nasposroay 


[indexed Artifacts (5.76m) | 
Em = 


2877k 


o 4 —— 
2004 2017 


| Popular Categories 


| Aspect Oriented 


| Actor Frameworks 


«dependency» 


Lucene | Search 
Found 394 results 
1. Lucene Core 812 usages 


74-41. org.apache.lucene > lucene-core 
Artifactory auto generated POM 


2. Lucene QueryParsers 285 usages 
72^. org.apache.lucene > lucene-queryparser 


Lucene QueryParsers module 


2-6 maven 仓库 中 下 载 Lucene 


，Lucene 核心 模块 的 坐标 如 下 : 


<groupId>org.apache.lucene</groupId> 


<artifactId>lucene-core</artifactId> 


<version>6.0.0</version> 


</dependency> 


2.23 下 载 Luke 


相信 大 家 非常 熟悉 关系 型 数据 库 ， 我 们 把 一 条 条 数据 存 入 数据 库 中 ， 打 开 数 据 库 管 理 系 
统 就 能 看 到 一 条 条 的 数据 , 非常 直观 。 在 全 文 检索 系统 中 ， 数 据 都 会 被 处 理 成 为 索引 这 种 数据 
结构 。 可 以 不 可 以 像 数 据 库 一 样 查看 存放 在 索引 中 的 数据 呢 ? 当然 可 以 ，Luke 就 是 用 来 查看 
Lucene, Solr, Elasticsearch 索引 的 GUI 工具， 方便 开发 和 诊断 。Luke 的 主要 功能 如 下 : 


查看 文档 和 分 析 字 段 内 容 。 


e © o o o o 


搜索 索引 。 
执行 索引 维护 。 
从 HDFS 读 取 索 引 。 


将 全 部 或 部 分 索引 转换 为 XML 格式 导出 。 
测试 自 定义 的 Lucene 分 词 器 。 


需要 说 明 的 是 ，Luke 的 版 本 要 和 Lucene 的 版 本 一 致 ， 比 如 ， 使 用 的 是 6.0 版 本 的 Lucene 
库 来 创建 索引 ， 那 么 也 要 使 用 6.0 版 本 的 Luke 来 查看 索引 。 

Luke 是 开源 工具 ， 代 码 托管 在 GitHub 之 上 ， 项 目地 址 为 https://github.com/DmitryKey/ 
luke/releases。 在 浏览 器 中 打开 项 目 链接 ， 找 到 Luke 6.0.0， 下 载 luke-6.0.0-luke-release.zip 并 解 


压缩 。 在 luke-6.0.0-luke-release 目录 下 可 以 看 到 3 个 文件 : luke.bat、luke.sh 和 target。 如 果 你 使 
有 的 是 Windows 操作 系统 ， 那 么 可 以 直接 单 击 luke.bat 来 启动 Luke; 如 果 你 使 用 的 是 Linux 操 


作 系 统 , 那么 可 以 打开 终端 ,切换 到 Luke 根 目录 然后 运行 .luke.sh 命令 ,之 后 即 可 成 功 启动 Luke. 
如 果 你 看 到 如 图 2-7 所 示 的 界面 ， 说 明 Luke 启动 成 功 。 
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Luke - Lucene Index Toolbox (6.0.0) 


Search |E commis [3s Piugns] 


Hint Luke can open multiple indexes in subdirectories 
1-1 Open in Read-Only mode 
(Force unlock, if locked 


-click for more or 
Ten 


Expert options 
Directory lone of predefined, or ful class namer [ 
E ond into RAMDirectoy 
1, Keep all commit points 
(.] Don't open IndexReader mhen opening corrupted inex) 
E Slom 10 avid and track expensive 10 operations 


Tokens marked in red 
Indicate decoding errors, 


eto 
mismatched decoder 


Select a field and set it value decoder: string tfe. 
Index name ? 


图 2-7 Luke 启动 界面 
224 下 载 IK 分 词 工具 


IK Analyzer (分 词 器 ) 是 一 个 开源 的 、 基 于 Java 语言 开发 的 轻 量 级 中 文 分 词 工具 包 。 从 
2006 年 12 月 推出 1.0 版 开始 ,IK Analyzer 已 经 推出 了 4 个 大 版 本 。 最 初 它 是 以 开源 项 目 Luence 
为 应 用 主体 的 ， 结 合 词 典 分 词 和 文法 分 析 算 法 的 中 文 分 词组 件 。 从 3.0 版 本 开始 ，IK Analyzer 
发 展 为 面向 Java 的 公用 分 词组 件 ， 独 立 于 Lucene 项 目 ， 同 时 提供 了 对 Lucene 的 默认 优化 实 
现 。 在 2012 WAH, IK Analyzer 实现 了 简单 的 分 词 歧义 排除 算法 ， 标 志 着 IK 分 词 器 从 单纯 
的 词典 分 词 向 模拟 语义 分 词 衍 化 。IK Analyzer 2012 有 以 下 特性 : 


CD 采用 了 特有 的 “ 正 向 迭代 最 细 粒 度 切 分 算法 ”, 支持 细 粒 度 和 智能 分 词 两 种 切 分 模式 。 

(2) 在 系统 环境 Core2 i7 3.4G 双核 ，4G 内 存 ，Window 7 64 位， Sun JDK 1.6 29 64 
位 普通 PC 环境 测试 ，IK 2012 具有 160 万 字 / 秒 (3000KB/S) 的 高 速 处 理 能 力 。 

(3) 2012 版 本 的 智能 分 词 模式 支持 简单 的 分 词 排 歧义 处 理 和 数量 词 合并 输出 。 

(4) 采用 了 多 子 处 理 器 分 析 模式 ， 支 持 英文 字母 、 数 字 、 中 文 词 汇 等 分 词 处 理 ， 兼 容 韩 
文 、 日 文字 符 。 

(5) 优化 的 词典 存储 ， 更 小 的 内 存 占用 。 支 持 用 户 词典 扩展 定义 。 特 别 的 ， 在 2012 版 
本 ， 词 典 支持 中 文 、 英 文 、 数 字 混 合 词语 。 

以 下 是 IK Analyzer 支持 细 粒 度 切 分 和 智能 切 分 两 种 切 分 方式 的 演示 样 例 。 

文本 1: 中 华人 民 共 和 国 国 歌 

智能 分 词 结果 : 中 华人 民 共 和 国 | 国歌 

最 细 粒 度 分 词 结果 : 中 华人 民 共 和 国 | 中 华人 民 | 中 华 | 华人 | 人 民 共 和 国 | 人 民 | 共 和 国 | 共和 
歌 
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文本 2: 王 老 师 说 的 确实 很 有 道理 
智能 分 词 结果 : 王 老 师 | 说 的 | 确实 | 很 有 | 道理 | 


最 细 粒 度 分 词 结果 : 王 老 师 | 老师 | 师 说 | 说 的 | 的 确 | 的 | 确实 | 很 有 | 有 道 | 有 | 道理 | 
IK Analyzer 下 载 地 址 为 : https://code.google.com/archive/p/ik-analyzer/downloads， 打 开 链 


接 后 ， 下 载 最 近 更 新 的 IK Analyer 2012 upgrade 6 源码 包 ， 
解压 之 后 的 安装 包 主 要 包含 下 列 文件 : 


IKAnalyzer 中 文 分 词 器 使 用 手册 
IKAnalyzer2012.jar ( 主 jar 包 ) 

IKAnalyzer.cfg.xml (分词 器 扩展 配置 文件 ) 
stopword.dic (停止 词典 ) 

LICENSE.TXT, NOTICE.TXT (Apache 版 权 申明 ) 
DOC 文件 夹 CAPT 说 明文 档 ) 


IK Analyzer 的 安装 部 署 十 分 简单 ， 主 要 有 以 下 两 步 : 
01 ig IKAnalyzer2012.jar 部 署 于 项 目的 lib 目录 中 。 


即 IK Analyzer 2012_u6_source.rar, 


CX02 i£ IKAnalyzer.cfg.xml 5 stopword.dic 文件 放置 在 class RAR (对 于 Web 项 目 , 通常 是 
WEB-INF/classes 目录 ， 同 hibernate. log4j 等 配置 文件 相同 ) 下 即 可 。 


开发 之 前 下 载 好 Lucene 6.0.0、Luke 6.0.0 和 IK Analyzer 2012， 准 备 工 作 就 完成 了 。 


2.2.5 ”工程 搭建 


本 章 关 于 Lucene 的 案例 代码 都 放 在 一 个 Java 工程 中 ， 
工程 目录 结构 如 图 2-8 所 示 。 

indexdir 文件 夹 用 于 存放 Lucene 索引 , lib 文件 夹 用 于 
存放 jar 4, src 目录 下 有 3 个 包 用 来 存放 Java X. 
tup.lucene.analyzer 目录 下 的 IkVSSmartcnjava 用 于 对 比 IK 
分 词 器 和 Lucene 自 带 的 中 文智 能 分 词 器 , StdAnalyzer.java 
用 于 测试 标准 分 词 器 , VariousAnalyzers.java 用 于 测试 多 种 
分 词 器 ; tup.lucene.ik 目录 下 的 IKTokenizeróx.java 和 
IKAnalyzeróx.java 用 于 配置 IK 分 词 器 ; tup.lucene.index 
目录 下 的 CreateIndex.java 用 来 创建 索引 ;tup.lucene.queries 
目录 下 的 QueryIndex.java 用 于 查询 索引 。 

读者 可 以 按照 图 2-8 所 示 的 目录 结构 新 建 空白 Java 
Project 并 构建 好 工程 目录 ，Java 类 可 以 随 着 后 面 的 学 习 逐 
步 添 加 。 需 要 添加 Lucene 的 jar 包 如 表 2-1 所 示 , 在 我 们 准 
备 好 的 Lucene 安 装 包 和 IK Analyzer 安 装 包 中 按照 表 中 的 路 
径 找到 并 拷贝 到 lib 文件 夹 下 即 可 。 


v E LuceneDemo 
ML 
Y ffi tup.lucene.analyzer 
> [J| IkVSSmartcn.java 
> [Jj StdAnalyzer.java 
上 |J) VariousAnalyzers.java 
Y ffi tup.lucene.ik 
> |J] IKAnalyzer6x.java 
> |J] IKTokenizer6x.java 
V fi tup.lucene.index 
> [Jj Createlndex.java 
> Bi tup.lucene.queries 
X; IKAnalyzer.cfg.xml 
© stopword.dic 
> gj, URE System Library [JavaSE-1.8] 
> Bi, Referenced Libraries 
> © indexdir 
Y lib 
Sy IKAnalyzer2012. u6.jar 
x lucene-analyzers-common-6.0.0.jar 
ə lucene-analyzers-smartcn-6.0.0.jar 
# lucene-core-6.0.0 jar 
S lucene-highlighter-6.0.0.jar 
y lucene-queries-6.0.0.jar 
S lucene-queryparser-6.0.0.jar 


图 2-8 LuceneDemo 工程 目录 
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表 2-1 jar 包 位 置 对 照 表 


jar 包 名 位 置 
lucene-core-6.0.0.jar lucene-6.0.0/core/ 
lucene-analyzers-common-6.0.0.jar lucene-6.0.0/analysis/common/ 
lucene-analyzers-smartcn-6.0.0.jar lucene-6.0.0/analysis/smartcn/ 
lucene-highlighter-6.0.0.jar lucene-6.0.0/highlighter/ 
lucene-queries-6.0.0.jar lucene-6.0.0/queries/ 
lucene-queryparser-6.0.0 jar lucene-6.0.0/queryparser/ 
IKAnalyzer2012_u6.jar IKAnalyzer2012_u6/ 
lucene-memory-6.0.0,jar lucene-6.0.0/memory 
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2.3.4 Lucene 分 词 系统 


在 第 1 章 中 已 经 提 到 ， 索 引 和 查询 都 是 以 词 项 为 基本 单位 ， 词 项 是 词 条 化 的 结果 。 在 
Lucene 中 , 分词 主 要 依靠 Analyzer 类 解析 实现 。Analyzer 类 是 一 个 抽象 类 (public abstract class 
org.apache.lucene.analysis.Analyzer) ， 切 分 词 的 具体 规则 是 由 子 类 实现 的 ， 所 以 对 于 不 同 的 语 
言 规则 ， 要 有 不 同 的 分 词 器 。 

Analyzer 内 部 主要 通过 TokenStream 类 实现 ,Tonkenizer 类 和 TokenFilter 类 是 TokenStream 
的 两 个 子 类 。Tokenizer 处 理 单个 字符 组 成 的 字符 流 ， 读 取 Reader 对 象 中 的 数据 ， 处 理 后 转 
换 成 词汇 单元 。TokenFilter 完成 文本 过 滤器 的 功能 , 但 在 使 用 过 程 中 必须 注意 不 同 过 滤器 的 使 
用 顺序 。 

在 创建 索引 的 时 候 需 要 用 到 分 词 器 ， 在 进行 索引 查询 的 时 候 也 会 用 到 分 词 器 ， 并 且 这 两 
个 地 方 要 使 用 同一 个 分 词 器 ， 和 否则 可 能 会 搜索 不 出 来 结果 。Lucene 提供 了 多 种 分 词 方法 ， 简 
介 如 下 : 


e StopAnalyzer〈 停 用 词 分 词 器 ) 

StopAnalyzer 能 过 滤 词 汇 中 的 特定 字符 串 和 词汇 ， 并 且 完 成 大 写 转 小 写 的 功能 。 

e StandardAnalyzer (标准 分 词 器 ) 
StandardAnalyzer 根据 空格 和 符号 来 完成 分 词 ， 还 可 以 完成 数字 、 字 母 、E-mail 地 址 、IP 
地 址 以 及 中 文字 符 的 分 析 处 理 ， 还 可 以 支持 过 滤 词 表 ， 用 来 代替 StopAnalyzer 能 够 实现 
的 过 滤 功 能 。 

e WhitespaceAnalyzer (空格 分 词 ) 
WhitespaceAnalyzer 使 用 空格 作为 间隔 符 的 词汇 分 割 分 词 器 。 处 理 词汇 单 元 的 时 候 ， 以 空 
格 字符 作为 分 割 符号 。 分 词 器 不 做 词汇 过 滤 ， 也 不 进行 小 写字 符 转 换 。 实 际 中 可 以 用 来 支 
持 特定 环境 下 的 西 文 符号 的 处 理 。 由 于 不 完成 单词 过 滤 和 小 写字 符 转换 功能 ， 也 不 需要 过 
滤 词 库 支持 。 词 汇 分 割 策略 上 简单 使 用 非 英 文字 符 作为 分 割 符 ， 不 需要 分 词 词 库 支 持 。 


第 2 章 Lucene 开发 入 门 31 


e SimpleAnalyzer (简单 分 词 ) 

SimpleAnalyzer 具备 基本 西 文字 符 词汇 分 析 的 分 词 器 ， 处 理 词汇 单元 时 ， 以 非 字 母 字符 作 
为 分 割 符号 。 分 词 器 不 能 做 词汇 的 过 滤 ， 只 进行 词汇 的 分 析 和 分 割 。 输 出 的 词汇 单元 完成 
小 写字 符 转 换 ， 去 掉 标 点 符号 等 分 割 符 。 在 全 文 检 索 系 统 开发 中 ， 通 常用 来 支持 西 文 符号 
的 处 理 ， 不 支持 中 文 。 由 于 不 完成 单词 过 滤 功 能 ， 所 以 不 需要 过 滤 词 库 支 持 。 词 汇 分 割 策 
略 上 简单 使 用 非 英文 字符 作为 分 割 符 ， 不 需要 分 词 词 库 的 支持 。 

e CJKAnalyzer (二 分 法 分 词 ) 
内 部 调用 CJKTokenizer 分 词 器 ， 对 中 文 进行 分 词 ， 同 时 使 用 StopFilter 过 滤器 完成 过 滤 
功能 ， 可 以 实现 中 文 的 多 元 切 分 和 停 用 词 过 滤 。 

e KeywordAnalyzer CX is] rii) 

把 整个 输入 作为 一 个 单独 词汇 单元 , 方便 特殊 类 型 的 文本 进行 索引 和 检索 。 针 对 邮政 编码 、 
地 址 等 文本 信息 使 用 关键 词 分 词 器 进行 索引 项 建立 非常 方便 。 


2.3.2 “分词 器 测试 
Lucene 标准 分 词 器 会 把 句子 分 成 一 个 一 个 单个 的 单词 ， 标 准 分 词 的 代码 见 代码 清单 2-1。 


代码 清单 2-1 Lucene 标准 分 词 


import java.io.IOException; 


import java.io.StringReader; 

import org.apache.lucene.analysis.Analyzer; 

import org.apache.lucene.analysis.TokenStream; 

import org.apache.lucene.analysis.standard.StandardAnalyzer; 

import org.apache.lucene.analysis.tokenattributes.CharTermAttribute; 

public class StdAnalyzer 
private static String strCh = "中 华人 民 共 和 国 简称 中 国 ， 是 一 个 有 13 亿 人 口 

的 国家 "; 


Private static String strEn = "Dogs can not achieve a place, 


eyes can reach; "; 

public static void main(String[] args) throws IOException { 
System.out.println("StandardAnalyzer 对 中 文 分 词 :"); 
stdAnalyzer (strCh); 
System.out.println("StandardAnalyzer 对 英文 分 词 :"); 
stdAnalyzer (strEn); 

F 

public static void stdAnalyzer(String str) throws IOException{ 
Analyzer analyzer = null; 
analyzer = new StandardAnalyzer(): 
StringReader reader = new StringReader (str); 
TokenStream toStream = analyzer.tokenStream(str, reader); 
toStream. reset (); 
CharTermAttribute teAttribute = 
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toStream.getAttribute (CharTermAttribute.class): 
System.out .println(" 分 词 结果 : "); 
while (toStream.incrementToken()) { 
System.out.print(teAttribute.toString() + " 


H 
System.out.println ("Wn"): 
analyzer.close(): 


) 
运行 结果 : 

StandardAnalyzer 对 中 文 分 词 : 

分 词 结果 : 

中 | 华 | 人 1 民 | 共 | 和 | 国 | 简 | 称 | 中 | 国 | 是 | 一 | 个 |/ 有 1131 亿 | 人 | 口 | 的 | 国 | 家 | 
StandardAnalyzer 对 英文 分 词 : 

分 词 结果 : 

dogs | can | achieve |placeleyes | can | reach | 


下 面 重 构 以 上 代码 ， 测 试 多 种 分 词 器 的 分 词 效 果 ， 见 代码 清单 2-2。 


码 清单 2-2 Lucene 多 种 分 词 器 示例 


import java.io.IOException; 
import java.io.StringReader; 
import org.apache.lucene.analysis.Analyzer; 
import org.apache.lucene.analysis.TokenStream; 
import org.apache.lucene.analysis.cjk.CJKAnalyzer; 
import org.apache.lucene.analysis.cn.smart.SmartChineseAnalyzer; 
import org.apache.lucene.analysis.core.KeywordAnalyzer; 
import org.apache.lucene.analysis.core.SimpleAnalyzer; 
import org.apache.lucene.analysis.core.StopAnalyzer; 
import org.apache.lucene.analysis.core.WhitespaceAnalyzer; 
import org.apache.lucene.analysis.standard.StandardAnalyzer; 
import org.apache.lucene.analysis.tokenattributes.CharTermAttribute; 
public class VariousAnalyzers { 
private static String str = "中 华人 民 共 和 国 简称 中 国 ， 是 一 个 有 13 亿 人 口 的 国家 "， 


public static void main(String[] args) throws IOException { 


Analyzer analyzer = null; 

analyzer = new StandardAnalyzer();: // 标准 分 词 

System. out .Println (" 标 准 分 词 :" + analyzer.getClass()); 
printAnalyzer (analyzer); 

analyzer = new WhitespaceAnalyzer():; // 空格 分 词 
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System.out.println (" 空 格 分 词 :" + analyzer.getClass()); 
printAnalyzer (analyzer); 
analyzer = new SimpleAnalyzer(): // 简单 分 词 
System.out.print1n ("简单 分 词 :" + analyzer.getClass()): 
printAnalyzer (analyzer); 
analyzer = new CJKAnalyzer(); // 二 分 法 分 词 
System.out .Println(" 二 分 法 分 词 :" + analyzer.getClass()): 
printAnalyzer (analyzer); 
analyzer = new KeywordAnalyzer(); // 关键 字 分 词 
System.out .println ("关键 字 分 词 :" + analyzer.getClass()): 
printAnalyzer (analyzer); 
analyzer = new StopAnalyzer(): // 停 用 词 分 词 
System. out .println(" 停 用 词 分 词 :" + analyzer.getClass()): 
printAnalyzer (analyzer); 
analyzer = new SmartChineseAnalyzer(); // 中 文智 能 分 词 
System.out .println ("中 文智 能 分 词 :" + analyzer.getClass()): 
printAnalyzer (analyzer); 

} 

public static void printAnalyzer (Analyzer analyzer) 

throws IOException { 
StringReader reader = new StringReader(str); 
TokenStream toStream = analyzer.tokenStream(str, reader); 
toStream.reset(): // 清空 流 
CharTermAttribute teAttribute = toStream.getAttribute 
(CharTermAttribute.class); 
while (toStream.incrementToken()) { 

System.out.print (teAttribute.toString() + "|"): 

5 
System.out.println ("Nn"); 
analyzer.close(): 


} 
运行 结果 : 
标准 分 词 : 


class org.apache.lucene.analysis.standard.StandardAnalyzer 


中 | 华 | 人 | 民 | 共 | 和 | 国 | 简 | 称 | 中 | 国 | 是 | 一 | 个 | 有 1131 亿 | 人 | 口 | 的 | 国 | 家 | 
空格 分 词 : 


class org.apache.lucene.analysis.core.WhitespaceAnalyzer 


中 华人 民 共和 国 简称 中 国 ，| 是 一 个 有 13 亿 人 口 的 国家 | 
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简单 分 词 : 


class org.apache.lucene.analysis.core.SimpleAnalyzer 


中 华人 民 共 和 国 简称 中 国 | 是 一 个 有 | 亿 和 人 口 的 国家 | 


二 分 法 分 词 : 
class org.apache.lucene.analysis.cjk.CJKAnalyzer 


中 华 | 华人 | 人 民 | 民 共 | 共 和 | 和 国 | 国 简 | 简称 | 称 中 | 中 国 | 是 一 | 一 个 | 个 有 113| 亿 人 | 人 口 | 
口 的 | 的 国 | 国家 | 


关键 字 分 词 : 


class org.apache.lucene.analysis.core.KeywordAnalyzer 


中 华人 民 共 和 国 简称 中 国 ， 是 一 个 有 13 亿 人 口 的 国家 1 
停 用 词 分 词 : 


class org.apache.lucene.analysis.core.StopAnalyzer 


中 华人 民 共 和 国 简称 中 国 1 是 一 个 有 1 亿 人 口 的 国家 1 
中 文智 能 分 词 : 


class org.apache.lucene.analysis.cn.smart.SmartChineseAnalyzer 


中 华人 民 共和 国 | 简称 | 中 国 | 是 | 一 个 | 有 1131 亿 | 人 口 | 的 | 国家 | 
2.3.8 IK 分 词 器 配置 


Lucene 6.0 使 用 IK 分 词 器 需要 修改 [KAnalyzer 和 下 Tokenizer。 在 包 tup.lucene.ik 下 新 建 一 个 
IKTokenizer6x 类 和 一 个 IKAnalyzer6x 类 。IKTokenizer6x 类 的 代码 见 代码 清单 2-3, IKAnalyzeróx 
类 的 代码 见 代码 清单 2-4。 


代码 清单 2-3 IKTokenizer6x.java 


import java.io.IOException:; 


import org.apache.lucene.analysis.Tokenizer; 
import org.apache.lucene.analysis.tokenattributes 
-CharTermAttribute: 
import org.apache.lucene.analysis.tokenattributes.OffsetAttribute; 
import org.apache.lucene.analysis.tokenattributes.TypeAttribute; 
import org.wltea.analyzer.core.IKSegmenter; 
import org.wltea.analyzer.core.Lexeme; 
public class IKTokenizer6x extends Tokenizer { 
// 1K Fy ia eS, 
private IKSegmenter _IKImplement; 
// 词 元 文本 属性 
private final CharTermAttribute termAtt; 
// 词 元 位 移 属 性 
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private final OffsetAttribute offsetAtt; 
// 词 元 分 类 属性 
// (该 属性 分 类 参考 org.wltea.analyzer.core.Lexeme 中 的 分 类 常量 ) 
private final TypeAttribute typeAtt; 
// 记录 最 后 一 个 词 元 的 结束 位 置 
private int endPosition; 
// Lucene 6.x Tokenizer 适配器 类 构造 函数 ; 实现 最 新 的 Tokenizer 接口 
public IKTokenizer6x (boolean useSmart) { 
super (): 
offsetAtt = addAttribute (OffsetAttribute.class); 
termAtt = addAttribute(CharTermAttribute.class); 
typeAtt addAttribute (TypeAttribute.class); 


.IKImplement = new IKSegmenter(input, useSmart); 


} 
GOverride 
public boolean incrementToken() throws IOException { 
clearAttributes (); // 清除 所 有 的 词 元 属性 
Lexeme nextLexeme = _IKImplement.next(); 
if (nextLexeme != null) { 
// 将 Lexeme # Attributes 
termAtt .append (nextLexeme.getLexemeText () ) ; // 设置 词 元 文本 
termAtt.setLength (nextLexeme .getLength () ); // 设置 词 元 长 度 
offsetAtt.setOffset (nextLexeme .getBeginPosition()， 
nextLexeme.getEndPosition()); // 设置 词 元 位 移 
// 记 录 分词 的 最 后 位 置 
endPosition = nextLexeme.getEndPosition(): 
typeAtt.setType(nextLexeme.getLexemeText());  // 记录 词 元 分 类 


return true; // 返回 true 告知 还 有 下 个 词 元 
} 
return false: // 返回 false 告知 词 元 输出 完毕 
} 
@Override 


public void reset() throws IOException { 
super.reset(): 
 .IKImplement.reset (input); 

H 

@Override 

public final void end() { 


int finalOffset = correctOffset (this.endPosition); 
offsetAtt.setOffset (finalOffset, finalOffset); 
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代码 清单 2-4 IKAnalyzer6x.java 


import org.apache.lucene.analysis.Analyzer: 
import org.apache.lucene.analysis.Tokenizer: 
public class IKAnalyzer6x extends Analyzer { 
private boolean useSmart; 
public boolean useSmart() ( 
return useSmart 
} 
public void setUseSmart (boolean useSmart) { 
this.useSmart = useSmart; 
} 
public IKAnalyzer6x() { 
this(false); // IK 分 词 器 Lucene Analyzer 接口 实现 类 ; 
// 默认 细 粒 度 切 分 算法 
} 
// 1K 分 词 器 Lucene Analyzer 接口 实现 类 ; 当 为 true 时 ， 分词 器 进行 智能 切 分 
public IKAnalyzer6x (boolean useSmart) { 
super (); 
this.useSmart = useSmart; 


} 
// 重 写 最 新 版 本 的 createComponents; HR Analyzer 接口 ， 构 造 分 词组 件 
@Override 
protected TokenStreamComponents createComponents (String 
fieldName) { 
Tokenizer IKTokenizer = new IKTokenizer6x(this.useSmart ()); 
return new TokenStreamComponents (_IKTokenizer); 


} 
实例 化 TK Analyzer6x 即 可 使 用 IK 分 词 器 了 ， 创 建 默认 细 粒 度 切 分 算法 的 IK Analyzer: 
Analyzer analyzer = new IKAnalyzer6x(): 
创建 智能 切 分 算法 的 IK Analyzer: 
Analyzer analyzer = new IKAnalyzeréx (true): 
2.3.4 ”中 文 分 词 器 对 比 


分 词 效 果 会 直接 影响 到 文档 搜索 的 准确 性 ,我 们 对 比 Lucene 6.0 中 自 带 的 中 文智 能 分 词 器 
SmartChineseAnalyzer 和 IK Analyzer， 比 较 一 下 哪 一 个 分 词 器 的 准确 率 更 高 ， 见 代码 清单 2-5。 


第 2 章 Lucene 开发 入 门 37 


代码 清单 2-5 ”中 文 分 词 效 果 对 比 


import java.io.IOException; 

import java.io.StringReader: 

import org.apache.lucene.analysis.Analyzer: 

import org.apache.lucene.analysis.TokenStream; 

import org.apache.lucene.analysis.cn.smart.SmartChineseAnalyzer; 

import org.apache.lucene.analysis.tokenattributes 
-CharTermAttribute; 

import tup.lucene.ik.IKAnalyzer6x; 


public class IkVSSmartcn ( 


private static String strl "公路 局 正在 治理 解放 大 道路 面积 水 问题 。"; 
private static String str2 = "IKAnalyzer 是 一 个 开源 的 ， 基 于 java 语言 开发 
的 轻 量 级 的 中 文 分 词 工具 包 。"; 
public static void main(String[] args) throws IOException { 
Analyzer analyzer = null; 
System.out.println("f]f—: "+str1); 
System.out.println("SmartChineseAnalyzer 分 词 结 果 : "); 
analyzer = new SmartChineseAnalyzer(); 
printAnalyzer (analyzer, strl); 
System.out.println("IKAnalyzer 分 词 结 果 : "); 
analyzer = new IKAnalyzer6x (true); 
printAnalyzer (analyzer, strl); 
RAPIST overs pri i (E "ys. 
System.out .println ("句子 二 : "+str2); 
System.out.print1n("SmartChineseAnalyzer 分 词 结果 : "); 
analyzer = new SmartChineseAnalyzer(); 
printAnalyzer(analyzer, str2); 
System.out.println("IKAnalyzer 分 词 结 果 : "); 
analyzer = new IKAnalyzer6x (true); 
printAnalyzer(analyzer, str2); 
analyzer.close(): 
) 
public static void printAnalyzer(Analyzer analyzer, String str) 
throws IOException { 
StringReader reader - new StringReader (str): 
TokenStream toStream = analyzer.tokenStream(str, reader); 
toStream.reset(): // 清空 流 
CharTermAttribute teAttribute = toStream.getAttribute( 
CharTermAttribute.class): 
while (toStream.incrementToken()) { 
System.out.print(teAttribute.toString() + "|"): 
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} 
System.out.println(): 
} 
} 


运行 结果 如 下 : 
句子 一 : 公路 局 正在 治理 解放 大 道路 面积 水 问题 。 
SmartChineseAnalyzer 分 词 结果 : 

公路 局 | 正 | 在 | 治理 | 解放 | 大 | 道路 | 面积 | 水 | 问题 | 
IKAnalyzer 分 词 结果 : 

公路 局 | 正在 | 治理 | 解放 | 大 道 | 路 面 | 积 水 1 问 题 | 


JFZ: IKAnalyzer 是 一 个 开源 的 ， 基 于 java 语言 开发 的 轻 量 级 的 中 文 分 词 工具 包 。 
SmartChineseAnalyzer 分 词 结果 : 

ikanalyz| 是 | 一 个 | 开 | 源 | 的 | 基于 |1javal 语 言 | 开发 | 的 | 轻 量 级 | 的 | 中 文 | 分 词 | 工 具 包 | 
IKAnalyzer 分 词 结果 : 

ikanalyzer| 是 | 一 个 | 开源 | 的 | 基于 |javal 语 言 | 开发 | 的 | 轻 量 级 | 的 | 中 文 | 分 词 | 工 具 包 


从 分 词 结果 中 可 以 看 到 ， 对 于 句子 一 ，SmartChineseAnalyzer 没有 把 “正在 ”分 成 一 个 词 ， 
“大 道路 面积 水 ”分 成 了 “大 ”“ 道 路 ”“ 面 积 ”“ 水 ”， 而 IK Analyzer 把 “正在 ”分 成 一 
个 词 ， 把 “大 道路 面积 水 ”分 成 了 “大 道 ”“ 路 面 ”“ 积 水 ”。 对 于 句子 二 ， 两 者 的 分 词 效 果 
差不多 ， 但 是 SmartChineseAnalyzer 把 “开源 ”分 开 了 。 总 体 而 言 ，IK Analyzer 的 中 文 分 词 的 
准确 性 比 SmartChineseAnalyzer 要 高 一 些 。 我 们 在 以 后 的 案例 和 项 目 中 也 会 选择 IK Analyzer 
作为 我 们 的 中 文 分 词 器 。 

开源 的 中 分 词 工具 有 很 多 ， 比 如 ICTCLAS 中 文 分 词 、Paoding 分 词 、jcseg 分 词 等 ， 这 里 
只 对 比 了 Lucene 自 带 的 中 文智 能 分 词 器 和 IK 分 词 器 ， 读 者 如 果 有 兴趣 可 以 继续 研究 。 


23.5 扩展 停 用 词 词典 

IK Analyzer 默认 的 停 用 词 词典 为 IKAnalyzer2012_u6/stopword.dic， 这 个 停 用 词 词典 并 不 
完整 ， 只 有 30 多 个 英文 停 用 词 ， 推 荐 使 用 扩展 的 停 用 词 词 表 〈 下 载 地 址 : https://github.com/ 
cseryp/stopwords) 。 在 工程 中 新 增 文件 ext_stopword.dic， 文 件 和 IKAnalyzer.cfg.xml 在 同一 目 


Se, 编辑 IKAnalyzer.cfg.xml 把 新 增 的 停 用 词 字典 写 入 配置 文件 , 多 个 停 用 词 字典 用 逗号 隔 开 ， 
配置 如 下 : 


<entry key="ext_stopwords">stopword.dic; ext_stopword.dic</entry> 
2.3.6 扩展 自 定义 词典 


IK Analyzer 也 支持 自 定义 词典 , 在 IKAnalyzer.cfg.xml 同一 目录 新 建 ext.dic， 把 新 的 词语 
按 行 写 入 文件 ， 然 后 编辑 IKAnalyzer.cfg.xml， 把 新 增 的 停 用 词 字典 写 入 配置 文件 ， 多 个 字典 
用 空格 隔 开 ， 配 置 如 下 : 


<entry key="ext_dict">ext.dic; </entry> 
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比如 ， 对 于 网 络 流行 语 “厉害 了 我 的 哥 ”， 默 认 的 词 库 中 没有 这 个 词 ， 要 在 自 定义 词典 


中 将 其 写 入 以 后 才能 分 成 一 个 词 。 测 试 自 定义 词典 的 代码 见 代码 清单 2-6。 


代码 清单 2-6 BENHAM 


import java.io.IOException: 
import java.io.StringReader; 
import org.apache.lucene.analysis.Analyzer; 
import org.apache.lucene.analysis.TokenStream; 
import org.apache.lucene.analysis.tokenattributes 
-CharTermAttribute; 
import tup.lucene.ik.IKAnalyzer6x; 
public class ExtDicTest { 
private static String str = "厉害 了 我 的 哥 ! 中 国 环保 部 门 即将 发 布 治理 北京 
FRNA!" 
public static void main(String[] args) throws IOException { 
Analyzer analyzer = new IKAnalyzer6x (true); 
StringReader reader = new StringReader (str); 
TokenStream toStream = analyzer.tokenStream(str, reader); 
toStream. reset (); 
CharTermAttribute teAttribute= toStream.getAttribute( 
CharTermAttribute.class); 
System.out.println(" 分 词 结果 : "); 
while (toStream.incrementToken()) { 
System.out .Print (teAttribute.toString() + "|"): 
} 
System.out.println ("Wn"): 
analyzer.close(): 


运行 结果 : 

加 载 扩展 词典 : ext .dic 

加 载 扩展 停止 词典 : stopword.dic 
词 结果 : 

厉 | 害 了 | 的 哥 | 中 国 | 环 保 部 门 | 发 布 | 治理 | 北京 | 雾 | 者 | 方法 | 
在 ext .dic 中 添加 自 定义 词 项 : 
环保 部 门 

ILE 88 

厉害 了 我 的 哥 

再 次 运行 ， 结 果 如 下 : 

加 载 扩展 词典 : ext .dic 

加 载 扩展 停止 词典 : stopword.dic 


> 


t 
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分 词 结果 : 


厉害 了 我 的 可 | 中国 环保 部 门 | 发 布 | 治理 | 北京 筋 者 | 方法 | 


2.4 Lucene 索引 详解 


介绍 完 Lucene 的 分 词 器 , 我 们 接着 介绍 Lucene 是 如 何 索引 文档 的 ,索引 文档 就 是 把 文档 
变 成 索引 这 种 数据 结构 的 过 程 。 


2.4.1 


Lucene 字段 类 型 


文档 是 Lucene 索引 的 基本 单位 ， 比 文档 更 小 的 单位 是 字段 ， 字 段 是 文档 的 一 部 分 ， 每 个 
字段 由 3 部 分 组 成 : 名称 (name) 、 类 型 (type) 和 取 值 (value) 。 字 段 的 取 值 一 般 为 文本 
类 型 (字符 串 、 字 符 流 等 ) 、 二 进 制 类 型 和 数值 类 型 。Lucene 中 的 字段 类 型 主要 有 以 下 几 种 : 


e 


TextField 

TextField 会 把 该 字段 的 内 容 索引 并 词 条 化 ， 但 是 不 保存 词 向 量 。 比 如 ， 包 含 整 篇 文档 内 容 
的 body 字段 ， 常 常 使 用 TextField 类 型 进行 索引 。 

StringField 

StringField 只 会 对 该 字段 的 内 容 索 引 ， 但 是 并 不 词 条 化 ， 也 不 保存 词 向 量 。 字 符 串 的 值 会 
被 索引 为 一 个 单独 的 词 项 。 比 如 ， 有 个 字段 是 国家 名 称 ， 字 段 名 为 “country”， 以 国家 “ 阿 
尔 吉 利 亚 ” 为 例 ， 只 索引 不 词 条 化 是 最 合适 的 。 

IntPoint 

IntPoint 适合 索引 值 为 int 类 型 的 字段 。IntPoint 是 为 了 快速 过 滤 的 ， 如 果 需 要 展示 出 来 需 
要 另存 一 个 字段 。 比 如 ， 商 品 的 数量 用 字段 “productCount” 存 储 ， 根 据 商品 数量 进行 过 
滤 操 作 时 可 以 直接 通过 productCount 字段 获取 结果 ， 但 是 要 想 展示 商品 数量 ， 需 要 另外 再 
存储 一 个 字段 。 

LongPoint 

用 法 和 IntPoint 类 似 ， 区 别 在 LongPoint 适合 索引 值 为 长 整 型 long 类 型 的 字段 。 

FloatPoint 

用 法 和 IntPoint 类 似 ， 区 别 在 FloatPoint 适合 索引 值 为 foat 类 型 的 字段 。 

DoublePoint 

用 法 和 IntPoint 类 似 ， 区 别 在 DoublePoint 适合 索引 值 为 double 类 型 的 字段 。 
SortedDocValuesField 

存储 值 为 文本 内 容 的 DocValue 字段 ，SortedDocValuesField 适合 索引 字段 值 为 文本 内 容 并 
且 需 要 按 值 进行 排序 的 字段 。 

SortedSetDocValuesField 

存储 多 值 域 的 DocValues 字段 ，SortedSetDocValuesField 适合 索引 字段 值 为 文本 内 容 并 且 
需要 按 值 进行 分 组 、 聚 合 等 操作 的 字段 。 
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e NumericDocValuesField 
存储 单个 数值 类 型 的 DocValues 字段 ， 主 要 包括 Gnt, long, float, double) 。 
© SortedNumericDocValuesField 
存储 数值 类 型 的 有 序数 组 列表 的 DocValues 字段 。 
e StoredField 
StoredField 适合 索引 只 需要 保存 字段 值 不 进行 其 他 操作 的 字段 。 
注 : DocValues 是 Lucene 4.X 版 本 以 后 新 增 的 重要 特性 ， 我 们 都 知道 ，Lucene 是 使 用 经 
典 的 倒 排 索引 的 模式 来 达到 快速 检索 的 目的 ， 简 单 地 说 ， 就 是 建立 词 项 和 文档 id 的 关系 映射 ， 
在 搜索 时 ， 通 过 类 似 hash 算法 来 快速 定位 到 一 个 搜索 关键 词 ， 然 后 读 取 文档 id 集合 ， 这 样 搜 
索 数 据 是 非常 高 效 快 速 的 ， 当 然 它 也 存在 一 定 的 缺陷 。 假 如 我 们 需要 对 数据 做 一 些 聚 合 操作 ， 
例如 排序 、 分 组 时 ，Lucene 内 部 会 遍历 提取 所 有 出 现在 文档 集合 的 排序 字段 ， 然 后 再 次 构建 
一 个 最 终 的 排 好 序 的 文档 集合 , 这 个 过 程 全 部 维持 在 内 存 中 操作 , 而 且 如 果 排序 数据 量 巨大 的 
话 ， 非 常 容易 造成 内 存 溢 出 和 性 能 缓慢 。 基 于 此 ， 在 lucene 4.X 之 后 出 现 了 DocValues 这 一 新 
特性 ，DocValues 其 实 是 Lucene 在 构建 索引 时 额外 建立 一 个 有 序 的 基于 document=>field/value 
的 映射 列表 。 在 构建 索引 时 会 对 开启 docvalues 的 字段 额外 构建 一 个 已 经 排 好 序 的 文档 到 字段 
级 别 的 一 个 列 式 存储 映射 , 它 减轻 了 在 排序 和 分 组 时 对 内 存 的 依赖 , 而 且 大 大 提升 了 这 个 过 程 
的 性 能 ， 当 然 它 也 会 耗费 一 定 的 磁盘 空间 。 


242 ”索引 文档 示例 


首先 新 建 一 个 代表 新 闻 的 实体 类 News.java, 为 了 简单 起 见 , 我 们 给 新 闻 对 象 设置 新 闻 id、 
新 闻 标题 、 新 闻 内 容 和 评论 数 4 个 属性 ， 然 后 提供 相应 的 构造 方法 、Setter 和 Getter 方法 ， 代 
码 见 代码 清单 2-7。 


代码 清单 2-7 News.java 


public class News { 


private int id; 

private String title; 

private String content; 

private int reply: 

public News() ( 

} 

public News(int id, String title, String content, int reply) { 
super (): 
this.id = id; 
this title = title; 
this.content = content; 
this.reply = reply: 

} 

public int getId() { 
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return id; 

} 

public void setId(int id) { 
this.id = id; 

} 

public String getTitle() { 
return title; 

} 

public void setTitle(String title) { 
this.title = title; 

} 

public String getContent() { 
return content; 

} 

public void setContent (String content) { 
this.content = content; 

} 

public int getReply() { 
return reply; 

} 

public void setReply(int reply) { 
this.reply = reply; 

} 

} 


Lucene 索引 文档 要 依靠 一 个 IndexWriter 对 象 , 创建 IndexWriter 需要 提供 两 个 参数 , 一 个 
是 IndexWriterConfig 对 象 ， 该 对 象 可 以 设置 创建 索引 使 用 哪 种 分 词 器 ， 另 一 个 是 索引 的 保存 
路 径 。IndexWriter 对 象 的 addDocument() 方 法 用 于 添加 文档 , 该 方法 的 参数 为 Document 对 象 。 
IndexWriter 对 象 一 次 可 以 添加 多 个 文档 ， 最 后 调用 commit0) 方 法 生成 索引 。CreateIndex.java 
是 我 们 创建 索引 的 代码 ， 我 们 首先 创建 了 3 个 News 对 象 ， 每 条 新 闻 添加 上 新 闻 ID、 新 闻 标 
题 、 新 闻 内 容 和 新 闻 的 评论 条 数 ， 后 面 的 代码 会 把 这 3 个 News 对 象 写 入 Lucene 索引 。 
IKAnalyzer 对 象 用 于 指定 创建 索引 时 的 分 词 器 ， 它 作为 参数 传 入 IndexWriterConfig() 方 法 中 实 
例 化 一 个 IndexWriterConfig 对 象 。Index WriterConfig 对 象 的 setOpenMode() 方 法 可 以 设置 索引 
的 打开 方式 ， 传 入 OpenMode.CREATE 参数 表示 先 清空 索引 再 重新 创建 ， 传 入 
CREATE OR APPEND 参数 表示 如 果 索 引 不 存在 会 新 建 ， 已 存在 则 附加 。Directory 对 象 用 于 
表示 索引 的 位 置 ， 把 索引 路 径 和 IndexWriterConfig 对 象 传 入 IndexWriter() 方 法 ， 实 例 化 
IndexWriter 对 象 ， 之 后 就 可 以 通过 IndexWriter 对 象 进行 文档 的 操作 。 

文档 是 Lucene 索引 和 搜索 的 基本 单位 ， 在 代码 中 Document 类 表示 文档 ， 比 文档 更 小 的 
单位 是 域 ， 也 可 以 称 为 字段 ， 一 个 文档 可 以 有 多 个 域 。FieldType 对 象 用 于 指定 域 的 索引 信息 ， 
例如 是 否 解析 、 是否 存储 、 是 否 保 存 词 项 频率 、 位移 信 息 等 。 FieldType 对 象 的 setindexOptions() 
方法 可 以 设 定 域 的 索引 选项 ， 可 选 参数 及 含义 如 下 : 
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e IndexOptions.DOCS 
只 索引 文档 ， 词 项 频率 和 位 移 信息 不 保存 。 
e IndexOptions.DOCS AND FREQS 
只 索引 文档 和 词 项 频率 ， 位 移 信 息 不 保存 。 
e IndexOptions.DOCS AND FREQS AND POSITIONS 
索引 文档 、 词 项 频率 和 位 移 信 息 。 
e IndexOptions.DOCS AND FREQS AND POSITIONS AND OFFSETS 
索引 文档 、 词 项 频率 、 位 移 信息 和 偏 移 量 。 
e IndexOptions.NONE 
不 索引 。 
全 文 搜索 中 很 重要 的 一 项 需求 是 关键 字 的 高 亮 ， 要 想 准 确 地 获取 位 置信 息 以 及 一 些 偏 移 
量 就 需要 在 创建 索引 的 时 候 进行 记录 , 如 果 信息 不 准确 , 那么 可 能 在 搜索 的 时 候 就 会 发 生 错位 ， 
反映 到 网 页 上 就 是 标注 了 不 该 标注 的 字 ， 没 有 标注 该 标的 内 容 。 在 索引 的 时 候 ， 可 以 使 用 
FieldType 对 象 提供 的 方法 设置 相对 增 量 和 位 移 信息 。 
€ setStored (boolean value) 
参数 默认 值 为 人 lse， 设 置 为 true 存储 字段 值 。 
® setTokenized (boolean value) 
参数 设置 为 rue， 会 使 用 配置 的 分 词 器 对 字段 值 进行 词 条 化 。 
® setStoreTermVectors (boolean value) 
参数 为 rue， 保 存 词 向 量 。 
® setStoreTermVectorPositions (boolean value) 
参数 为 tue， 保 存 词 项 在 词 向 量 中 的 位 移 信息 。 
® setStoreTermVectorOffsets (boolean value) 


参数 为 tue， 保 存 词 项 在 词 向 量 中 的 偏 移 信息 。 


代码 清单 2-8 Createlndex.java 


import java.io.IOException: 

import java.nio.file.Files; 

import java.nio.file.Path; 

import java.nio.file.Paths; 

import java.util.Date; 

import org.apache.lucene.analysis.Analyzer: 
import org.apache.lucene.document.Document; 
import org.apache.lucene.document.Field; 
import org.apache.lucene.document.FieldType: 
import org.apache.lucene.document.IntPoint; 
import org.apache.lucene.document.SortedNumericDocValuesField; 
import org.apache.lucene.document.StoredField: 
import org.apache.lucene.index.IndexOptions: 
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import 
import 
import 
import 
import 
import 
public 


org.apache. lucene. index. IndexWriter; 

org.apache. lucene. index. IndexWriterConfig; 
org.apache. lucene. index. IndexWriterConfig.OpenMode; 
org.apache.lucene.store.Directory; 
org.apache.lucene.store.FSDirectory: 
tup.lucene.ik.IKAnalyzer6x; 

class CreateIndex ( 


public static void main(String[] args) ( 


// 创建 3 个 News WR 

News newsl = new News(): 

newsl.setId(1); 

newsl.setTitle ("习近平 会 见 美 国 总 统 奥巴马 ， 学 习 国 外 经 验 ") ; 

newsl.setContent ("国家 主席 习近平 9 月 3 日 在 杭州 西湖 国宾 馆 会 见 前 来 出 席 
二 十 国 集团 领导 人 杭州 峰会 的 美国 总 统 奥巴马 . . .") s 

newsl.setReply (672); 

News news2 = new News(): 

news2.setId(2); 

news2.setTitle ("北大 迎 4380 名 新 生 农村 学 生 700 多 人 近年 最 多 ") ; 

news2.setContent ("昨天 ， 北 京 大 学 迎 来 4380 名 来 自 全 国 各 地 及 数 十 个 国家 

的 本 科 新 生 。 其 中 ， 农 村 学 生 共 700 余 名 ， 为 近年 最 多 . . ."); 
news2.setReply (995); 


News news3 = new News(); 

news3.setId(3); 

news3.setTitle ("BHN Et (Donald Trump) 就 任 美国 第 45 任 总 统 ") ; 

news3.setContent ("当地 时 间 1 月 20 日 ， 唐 纳 德 特 朗 普 在 美国 国会 宣 哲 就 
职 ， 正 式 成 为 美国 第 45 任 总 统 。") ; 

news3.setReply (1872); 


// 创建 IK 分 词 器 

Analyzer analyzer = new IKAnalyzer6x(); 

IndexWriterConfig icw = new IndexWriterConfig (analyzer): 

icw.setOpenMode (OpenMode.CREATE) ; 

Directory dir = null 

IndexWriter inWriter = null 

// 索引 目录 

Path indexPath = Paths.get ("indexdir"); 

// 开始 时 间 

Date start = new Date(); 

EEV 

if (!Files.isReadable(indexPath)) { 
System.out.println("Document directory '" + indexPath. 

toAbsolutePath()+ "' does not exist or is not 
readable, please check the path"); 
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System.exit (1): 
) 
dir = FSDirectory.open(indexPath): 
inWriter = new IndexWriter(dir, icw): 
// 设 置 新 闻 ID 索引 并 存储 
FieldType idType = new FieldType(): 
idType.setIndexOptions (IndexOptions.DOCS);: 
idType.setStored (true); 
// 设 置 新 闻 标 题 索引 文档 、 词 项 频率 、 位 移 信 息 和 偏 移 量 ， 存 储 并 词 条 化 
FieldType titleType = new FieldType(): 
titleType.setIndexOptions (IndexOptions. 
DOCS AND FREQS AND POSITIONS AND OFFSETS); 
titleType.setStored (true): 
titleType.setTokenized(true) ; 


FieldType contentType = new FieldType(); 

contentType.setIndexOptions (IndexOptions. 

DOCS AND FREQS AND POSITIONS AND OFFSETS); 

contentType.setStored (true); 

contentType.setTokenized (true) ; 

contentType.setStoreTermVectors (true); 

contentType.setStoreTermVectorPositions (true) 

contentType.setStoreTermVectorOffsets (true); 

contentType.setStoreTermVectorPayloads (true); 

Document docl - new Document (); 

docl.add(new Field("id", String.valueOf (newsl.getId()); 
idType)): 

docl.add(new Field("title", newsl.getTitle(), 
titleType)): 

docl.add(new Field("content",newsl.getContent(), 

contentType)): 
docl.add(new IntPoint ("reply", newsl.getReply())): 
docl.add(new StoredField("reply display"; 
newsl.getReply())): 
Document doc2 = new Document (); 
doc2.add(new Field("id", String.valueOf (news2.getId()); 
idType)): 

doc2.add(new Field("title", news2.getTitle(); 
titleType)): 

doc2.add(new Field("content", news2.getContent (); 
contentType)): 

doc2.add(new IntPoint("reply", news2.getReply())): 

doc2.add(new StoredField("reply display", 
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news2.getReply())); 


Document doc3 = new Document (); 


doc3.add(new Field("id", 
idType) ); 


String.valueOf (news3.getId()); 


doc3.add(new Field("title"news3.getTitle(), titleType)): 


doc3.add(new Field("content" 


contentType) ); 


doc3.add(new IntPoint ("reply" 
doc3.add(new StoredField("reply display" 


getReply())): 

inWriter. 
inWriter 
inWriter 
inWriter.commit (); 
inWriter.close(); 

dir.close(); 
} catch (IOException e) { 

e.printStackTrace(): 


J 


Date end = new Date (); 


news3.getContent ()， 


news3.getReply())): 


news3. 


addDocument (doc1) ; 
-addDocument (doc2) ; 
-addDocument (doc3); 


System.out.println(" 索 引文 档 用 时 :" + (end.getTime() - start. 


getTime()) 


运行 结果 : 
oeeeececn TERI dtd B te ee 
加 载 扩展 词典 :ext .dic 

加 载 扩展 停止 词典 : stopword.dic 

加 载 扩展 停止 词典 : ext stopword.dic 
索引 文档 用 时 :884 milliseconds 


eeeeeeeex EB B ase pee 


* " milliseconds"); 


刷新 工程 ， 在 indexdir 目录 下 可 以 看 到 生成 的 索引 文件 : 


_0.cfe 


2.4.3 Luke 中 查看 索引 


_0.cfs .0.si 


segments 1 


write.lock 


索引 创建 完成 以 后 生成 了 一 批 特殊 格式 的 文件 ， 可 以 使 用 索引 查看 工具 Luke 来 查看 。 启 


动 Luke, Path 选 为 Lucene 索引 的 位 置 ， 在 本 例 
启动 Luke 的 界面 如 图 2-9 所 示 。 
Luke 启动 之 后 , Overview 选项 卡 界 面 


中 为 LuceneDemo/indexdir 的 绝对 路 径 。 初 次 


显示 了 打开 的 索引 的 基本 信息 : 索引 路 径 、 字段 数 、 


文档 数 、 词 项 数 、 索 引 版 本 、 词 项 频率 等 ， 如 


图 2-10 所 示 。 


切换 到 Documents 选项 卡 即 可 查询 写 入 的 文档 ，Luke 查看 索引 结果 如 图 2-11 所 示 。 可 以 
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看 到 reply 字段 为 空 ， 是 因为 IntPoint 字段 类 型 是 为 了 快速 过 滤 的 ， 如 果 需 要 展示 出 来 需要 另 
存 一 个 字段 ， 我 们 用 reply_display 来 存储 。 


Luke - Lucene Index Toolbox (6.0.0) 


Index name: 2 
Number of fields:? 
Number of documents: 2 
Number of terms: 2 

Has deletions? / Optimized?:? / ? 
Index version:? 
Index format: 2? 
Index functionality:? 


Current comm 


Hint: Luke can open multiple indexes in subdirectories. 
E Open in Read-Only mode 
E Force unlock, if locked 


Select fields from + 


Expert options: 
Directory (one of predefined, or full class namer: [FS Directory 
[7] Load into RAMDirectory 
网 Keep all commit points 
iy Don't open IndexReader when opening corrupted index 
[Slow 10 ~ avoid and track expensive 10 operations 


Select a field and set its value decoder: [string utf m 


图 2-9 Luke 中 打开 索引 路 径 


Luke - Lucene Index Toolbox (6.0.0) 


| Overview | [à Documents | à Search | [7] Commits | Plu 
Index name: /Users/bee/Documents/workspace/LuceneDemo/indexdir Reopen] 
Number of fields: 5 org 
Number of documents: LEl commit 
Number of terms: 87 |... (| Close 
Has deletions? / Optimized? No / Yes 
Index version: 4. 
Index format: Lucene 5.3 or later 
Index functionality: flexible, codec-specific 
Directory implementation: org.apache lucene.stere MMapDirectory 


Currently opened commit point: segments 1 (generatione, segse1) 
Current commit user data: 


Select fields from the list below, and press button to view top terms in these fields. No selection means all fields. 


Top ranking terms. (Right-click for more optio 
Fi = T 
content | content L1 
“title 3 x content 国家 
id ý title 
reply bo iE content 


reply displae string ufa | use Shin Clita title m 
select ranges, or 

| ctrl-click to select. comen 

| multiple fieles (or content en 

| unselect all. conent 主席 


content um 
Tokens marked in red comem Sn 
| indicate decoding errors, omens ne 
| likely due to a. content Atm 
mismatched decoder. RUE 北京 大 
— content 北京 大 学 


Select a field and set its value decoder: [string utt® - m 
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ece Luke - Lucene Index Toolbox (6.0.0) 
Eile Tools Settings Help 
Ê Overview I Documents |) Search | (7] Commits | Plugins 
Browse by document number: Browse by term: 
Doc. # olad [nE (Hint: enter a substring and press Next to start at the nearest term), 
— First Term | Term: komen || |L Nex Term 


Add | Reconstruct & Edit Decoded value: 
MERECE Browse documents with this term ( 0 documents) Show All Docs 
oe Document:? of ?| First Doc | | => Next Doc | BI Delete All Docs 


Term freq in this doc: 7 | Show Positions. 


1 - Indexed (docs freqs,pos,offsets) P- Payloads S - Stored; V - Term Vector | 
Doc# 0 Flags: B - Binary; N - Norms type/precisiont; bcc- Numeric fypeyprecisiomy 

D'tooxx - DecValues (type/precisiony Tx/x - PointValues inumBytes/dimensiony, 
Field AtpoPSVBNMtxxDtexexxTx/ Norm | Value — 
coment ARER NEFA? BEAMS RHE TORS ANNE ENREGA 
ig 1 
reply 
reply display 672 

习近平 会 见 美国 总 统 奥巴马 ,学 习 国 外 经 验 


Selected field: | TY | [Show] | Examine norm | Save Copy text to Clipboard: | Selected fields || Complete document 
Index name: /Users/bee..rkspace/LuceneDemo/ indexdir | 


图 2-11 Luke 中 查看 索引 
244 索引 的 删除 


上 一 小 节 介绍 了 Lucene 是 如 何 索引 文档 的 ， 索 引 同 样 存在 CRUD 操作 ， 这 一 小 节 通 过 示 
例 介 绍 索引 的 删除 和 更 新 操作 。 删除 与 更 新 和 新 增 一 样 , 也 是 通过 IndexWriter 对 象 来 操作 的 ， 
IndexWrite 对 象 的 deleteDocuments() 方 法 用 于 实现 索引 的 删除 ，updateDocument() 方 法 用 于 实 
现 索 引 的 更 新 。 删 除 索引 的 代码 见 代码 清单 2-9， 该 示例 实现 了 根据 Term 来 删除 单个 或 多 个 
Document， 删 除 title 中 包含 关键 词 “ 美 国 “的 文档 。 


代码 清单 2-9 


import java.io.IOException:; 

import java.nio.file.Path: 

import java.nio.file.Paths; 

import org.apache.lucene.analysis.Analyzer; 

import org.apache.lucene.index.IndexWriter; 

import org.apache.lucene.index.IndexWriterConfig: 

import org.apache.lucene.index.Term; 

import org.apache.lucene.store.Directory: 

import org.apache.lucene.store.FSDirectory: 

import tup.lucene.ik.IKAnalyzeróx: 

public class DeleteIndex ( 

public static void main(String[] args) ( 

// 删除 title 中 含有 关键 词 \ 美 国 ”的 文档 
deleteDoc("title", "美国 "); 
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} 


public static void deleteDoc (String field, String key) { 


} 


Analyzer analyzer = new IKAnalyzer6x(); 
IndexWriterConfig icw = new IndexWriterConfig (analyzer); 
Path indexPath = Paths.get("indexdir"): 
Directory directory: 
try { 
directory = FSDirectory.open (indexPath); 
IndexWriter indexWriter = new IndexWriter(directory, 
icw); 
indexWriter.deleteDocuments (new Term(field, key)): 
indexWriter.commit(); 
indexWriter.close(); 
System.out .println ("删除 完成 !"); 
} catch (IOException e) { 


e.printStackTrace(); 


除 此 之 外 ，IndexWriter 还 提供 了 以 下 方法 : 


DeleteDocuments(Query query): 根据 Query 条 件 来 删除 单个 或 多 个 Document。 
DeleteDocuments(Query[] queries): 根据 Query 条 件 来 删除 单个 或 多 个 Document。 
DeleteDocuments(Term term): 根据 Term 来 删除 单个 或 多 个 Document。 
DeleteDocuments( Term[] terms): 根据 Term 来 删除 单个 或 多 个 Document。 
DeleteAll(): 删除 所 有 的 Document. 


使 用 IndexWriter 进行 Document 删除 操作 时 ， 文 档 并 不 会 立即 被 删除 ， 而 是 把 这 个 删除 
动作 缓存 起 来 ， 当 IndexWriter.Commit() 或 IndexWriter.Close() 时 ， 删 除 操作 才 会 被 真正 执行 。 


245 索引 的 更 新 


索引 更 新 操作 实质 上 是 先 删除 索引 ， 


新 建立 新 的 文档 ， 见 代码 清单 2-10。 


代码 清单 2-10 


import 
import 
import 
import 
import 
import 
import 


import 


java.nio.file.Path; 

java.nio.file.Paths; 
org.apache.lucene.analysis.Analyzer; 
org.apache.lucene.document . Document; 
org.apache.lucene.document.Field.Store: 
org.apache.lucene.document.TextField; 
org.apache.lucene.index.IndexWriter; 
org.apache.lucene.index.IndexWriterConfig: 
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import 
import 
import 
import 
public 


org.apache. lucene. index.Term; 
org.apache.lucene.store.Directory: 
org.apache.lucene.store.FSDirectory: 
tup.lucene.ik.IKAnalyzeróx; 

class UpdateIndex ( 


public static void main(String[] args) ( 


) 


上 面 的 代码 中 新 建 了 一 个 IndexWriter 对 象 和 Document 对 象 , 通过 updateDocument() 77 i: 
完成 更 新 操作 。Term 对 象 用 于 定位 文档 ， 查 找 title 中 含有 “北大 ”的 文 要 ， 然 后 用 新 的 文档 蔡 


Analyzer analyzer = new IKAnalyzer6x(); 
IndexWriterConfig icw = new IndexWriterConfig(analyzer) ; 
Path indexPath = Paths.get ("indexdir"); 
Directory directory: 
try { 
directory = FSDirectory.open (indexPath); 
IndexWriter indexWriter = new IndexWriter(directory, icw); 
Document doc = new Document (); 
doc.add(new TextField("id", "2", Store.YES)): 
doc.add(new TextField ("title"，" 北 京 大 学 开学 迎 来 4380 名 新 生 
", Store.YES)); 
doc.add(new TextField("content", " 昨天 ， 北 京 大 学 迎 来 4380 名 
来 自 全 国 各 地 及 数 十 个 国家 的 本 科 新 生 。 其 中 ， 农 村 学 生 共 700 余 
名 ， 为 近年 最 多 . . ."， Store.YES)): 
indexWriter.updateDocument (new Term("title", "北大 ") ， 
doc); 
indexWriter.commit (); 
indexWriter.close(); 
} catch (Exception e) { 
e.printStackTrace(): 


换 原 文档 ， 这 样 就 完成 了 索引 的 更 新 操作 。 


文档 索引 完成 以 后 就 可 以 对 其 进行 搜索 ， 当 用 户 输入 一 个 关键 字 ， 搜 索引 擎 接收 到 后 ， 
并 不 是 立刻 就 将 它 放 入 后 台 开始 进行 关键 字 的 检索 ,而 应 当 首先 对 这 个 关键 字 进 行 一 定 的 分 析 
和 处 理 ， 使 之 成 为 一 种 后 台 可 以 理解 的 形式 ， 只 有 这 样 ， 才 能 提高 检索 的 效率 ， 同 时 检索 出 更 


2.5 Lucene 查询 详解 


加 有 效 的 结果 。 
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2.5.1 搜索 入 门 


在 Lucene 中 ， 处 理 用户 输 入 的 查询 关键 词 其 实 就 是 构建 Query 对 象 的 过 程 。Lucene 搜索 
文档 需要 实例 化 一 个 IndexSearcher 对 象 ，IndexSearcher 对 象 的 search() 方 法 完成 搜索 过 程 ， 
Query 对 象 作为 search() 方 法 的 对 象 。 搜 索 结果 会 保存 在 一 个 TopDocs 类 型 的 文档 集合 中 ， 遍 
Jj TopDocs 集合 输出 文档 信息 。 见 代码 清单 2-11。 


代码 清单 2-11 


package tup.lucene.queries; 

import java.io.IOException; 

import java.nio.file. Path; 

import java.nio.file.Paths; 

import org.apache.lucene.analysis.Analyzer; 

import org.apache.lucene.document.Document; 

import org.apache. lucene. index.DirectoryReader; 

import org.apache. lucene. index. IndexReader; 

import org.apache.lucene.queryparser.classic.ParseException; 

import org.apache.lucene.queryparser.classic.QueryParser; 

import org.apache.lucene.search. IndexSearcher; 

import org.apache.lucene.search.Query; 

import org.apache.lucene.search.ScoreDoc; 

import org.apache.lucene.search.TopDocs; 

import org.apache.lucene.store.Directory; 

import org.apache.lucene.store.FSDirectory; 

import tup.lucene.ik.IKAnalyzer6x; 

public class QueryParseTest( 

public static void main(String[] args) 

throws ParseException, IOException ( 
String field - "title"; 
Path indexPath = Paths.get ("indexdir"); 
Directory dir = FSDirectory.open (indexPath); 
IndexReader reader = DirectoryReader.open (dir): 
IndexSearcher searcher = new IndexSearcher (reader): 
Analyzer analyzer = new IKAnalyzer6x(); 
QueryParser parser = new QueryParser(field, analyzer); 
parser.setDefaultOperator (Operator.AND); 
Query query = parser.parse ("RH FÆ"); // 查询 关键 词 
System.out.println("Query:"*query.toString()): 
// 返回 前 10 条 
TopDocs tds = searcher.search(query, 10); 
for (ScoreDoc sd : tds.scoreDocs) { 
Document doc = searcher.doc(sd.doc); 
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System.out.println("DocID:" + sd.doc); 
System.out.println("id:" + doc.get("id")); 
System.out.println("title:" + doc.get ("title") ); 
System.out .Println(" 文 档 评分 :"” + sd.score): 

} 

dir.close(); 


reader.close(); 


} 
注意 上 面 代码 中 的 这 几 行 代码 : 
QueryParser parser = new QueryParser(field, analyzer); 
Query query = parser.parse ("RAE"); 


parser.setDefaultOperator (Operator.AND); 


TopDocs topDocs = searcher.search(query, 10); 


QueryParser 实际 上 就 是 一 个 解析 用 户 输入 的 工具 ， 可 以 通过 扫描 用 户 输入 的 字符 串 生 成 
Query 对 象 。 当 使 用 QueryParser 构建 用 户 Query 时 ， 要 搜索 的 field 和 analyzer 对 象 作为 参数 
fé N QueryParser 类 ,告诉 QueryParser 在 哪个 字段 内 查找 该 关键 字 信 息 以 及 搜索 时 使 用 什么 样 
的 分 词 器 。 这 里 设置 要 查询 的 字段 为 title 字段 ， 查 询 所 用 的 分 词 器 为 IK 智能 分 词 ， 查 询 关 键 
词 为 “农村 学 生 ”， 关 键 词 经 过 分 词 器 分 成 “农村 ”和 “学 生 ” 两 个 词 项 ，title 中 含有 这 两 个 
词 项 中 的 任何 一 个 的 文档 都 是 本 次 查询 的 匹配 文档 。 如 果 只 想 返 回 同时 包含 两 个 词 项 的 文档 ， 
可 以 通过 setDefaultOperator() 方 法 把 关键 词 理 解 为 AND 操作 。 

注意 ， 在 结果 中 打印 了 DocID 和 id， 前 者 是 文档 ID， 是 Lucene 为 索引 的 每 个 文档 做 的 
标记 ， 后 者 是 文档 内 部 的 id 字段 。 

运行 结果 如 下 : 

加 载 扩展 词典 : ext.dic 

加 载 扩 展 停止 词典 : stopword.dic 

加 载 扩展 停止 词典 : ext stopword.dic 

Query:+title: RAM +title: 学 生 

DocID:1 

id:2 

title: 北 大 迎 4380 名 新 生 农村 学 生 700 多 人 近年 最 多 

文档 评分 :1.6022166 

改变 上 面 搜索 实例 的 Query 对 象 就 可 以 实现 不 同 种 类 型 的 搜索 需求 ， 比 如 多 域 查询 、 布 
尔 查询 、 模 糊 查 询 、 通 配 符 查 询 等 。 


2.5.2 ”多 域 搜索 (MultiFieldQueryParser) 


2.4.1 小 节 中 介绍 的 QueryParser 可 以 搜索 单个 字段 ， 而 MultiFieldQueryParser 则 可 以 查询 
多 个 字段 。 通 过 MultiFieldQueryParser 对 象 生成 Query 对 象 的 代码 如 下 : 


String[] fields = ( "title", "content" }; 
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Analyzer analyzer = new IKAnalyzeróx (true): 
MultiFieldQueryParser parser = new MultiFieldQueryParser(fields, analyzer); 


Query multiFieldQuery = parser.parse ("HA"); 


通过 IndexSearcher 搜索 文档 和 打印 结果 的 代码 和 2.4.1 中 的 一 样 ， 这 里 省 略 ， 给 出 查询 
结果 : 


title: 日 本 content: 日 本 

DocID:0 

id:1 

title: 安 倍 晋三 本 周 会 晤 特 朗 普 将 强调 日 本 对 美国 益处 

content :日 本 首相 安倍 晋三 计划 2 月 10 日 在 华盛顿 与 美国 总 统 特 朗 普 举行 会 晤 时 提出 加 
大 日 本 在 美国 投资 的 设想 

文档 评分 :2.0341508 


2.5.8 词 项 搜索 (TermQuery) 


TermQuery 是 最 简单 也 是 最 常用 的 Query. TermQuery 可 以 理解 成 为 “ 词 项 搜索 ”， 在 搜 
索引 擎 中 最 基本 的 搜索 就 是 在 索引 中 搜索 某 一 词 条 , 而 TermQuery 就 是 用 来 完成 这 项 工作 的 。 
在 Lucene 中 词 条 是 最 基本 的 搜索 单位 ， 从 本 质 上 来 讲 一 个 词 条 其 实 就 是 一 个 key/value 对 。 只 
不 过 这 个 key 是 字段 名 ,而 value 则 表示 字段 中 所 包含 的 某 个 关键 字 。 要 使 用 TermQuery 进行 
搜索 首先 需要 构造 一 个 Term 对 象 ， 示 例 代 码 如 下 : 


Term term = new Term("title", "美国 ") ; 


然后 使 用 Term 对 象 为 参数 来 构造 一 个 TermQuery 对 象 ， 代 码 设置 如 下 : 


Query termQuery = new TermQuery (term); 


这 样 所 有 在 “title” 字 段 中 包含 有 “美国 ”的 文档 都 会 在 使 用 TermQuery 进行 查询 时 作为 
符合 查询 条 件 的 结果 返回 。 同 样 省 略 IndexSearcher 搜索 文档 和 打印 结果 的 代码 ， 运 行 结果 
如 下 : 


ouery:title :美国 
DocID:2 

id:3 
title: 特 朗 普 宣 拆 就 任 美国 第 45 任 总 统 

文档 评分 :0.53872687 

DocID:0 

id:1 

title: 安 倍 晋三 本 周 会 晤 特 朗 普 将 强调 日 本 对 美国 益处 
文档 评分 :0.38388318 


2.54 布尔 搜索 (BooleanQuery) 


BooleanQuery 也 是 实际 开发 过 程 中 经 常 使 用 的 一 种 Query 查询 ， 它 其 实 是 一 个 组 合 的 
Query, 在 使 用 时 可 以 把 各 种 Query 对 象 添加 进去 并 标明 它们 之 间 的 逻辑 关系 。BooleanQuery 本 
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身 来 讲 是 一 个 布尔 子 句 的 容器 ， 它 提供 了 专门 的 API 方法 往 其 中 添加 子 句 ， 并 标明 它们 之 间 的 


关系 。 下 面 的 代码 中 ， 创 建 了 两 个 TermQuery，BooleanClause 对 象 可 以 指定 查询 的 包含 关系 ， 


并 作为 参数 通过 BooleanQuery.Builder(0 构 造 布尔 查询 。 查 询 title 字段 中 包含 关键 词 “ 美 国 ” 并 


且 “content” 字 段 中 不 包含 日 本 的 文档， 代码 如 下 : 


Query queryl = new TermQuery(new Term("title", "美国 ") ); 
Query query2 = new TermQuery(new Term("content", "日 本 ") ) ; 
BooleanClause bcl-new BooleanClause(queryl, Occur.MUST): 
BooleanClause bc2-new BooleanClause (query2, Occur.MUST NOT); 
BooleanQuery boolQuery-new BooleanQuery.Builder() 

-add (bc1) .add (bc2) .build(): 


查询 结果 如 下 : 


Query:+title: 美 国 -content: 日 本 

DocID:2 

id:1 

title: 特 朗 普 宣 誓 就 任 美国 第 45 任 总 统 

content :当地 时 间 1 月 20 日 ， 唐 纳 德 - 特 朗 普 在 美国 国会 宜 哲 就 职 ， 正 式 成 为 美国 第 45 任 总 统 。 
文档 评分 :0.53872687 


2.5.5 ”范围 搜索 (RangeQuery) 


有 时 用 户 需要 查找 满足 一 定 范围 的 文档 ， 比 如 查找 某 一 时 间 段 内 的 所 有 文档 ，Lucene 提 


供 了 RangeQuery 查询 来 满足 这 种 需求 。 


RangeQuery 表示 在 某 范围 内 的 搜索 条 件 ， 实 现 从 一 个 开始 词 条 到 一 个 结束 词 条 的 搜索 功 
能 ， 在 查询 时 “开始 词 条 ”和 “结束 词 条 ”可 以 包含 在 内 也 可 以 不 被 包含 在 内 。 查 询 新 闻 回 复 


条 数 在 500 条 到 1000 条 之 间 的 有 哪些 ， 构 成 Query 对 象 的 代码 如 下 : 
Query rangeQuery-IntPoint.newRangeQuery ("reply", 500, 1000); 
同样 省 略 IndexSearcher 搜索 文档 和 打印 结果 的 代码 ， 查 询 结 果 如 下 : 


Query:reply:[500 TO 1000] 

DocID:0 

Ws 

title: 安 倍 晋三 本 周 会 晤 特 朗 普 将 强调 日 本 对 美国 益处 
Reply:672 

文档 评分 :1.0 

DocID:1 

id:2 

title: 北 大 迎 4380 名 新 生 农村 学 生 700 多 人 近年 最 多 
Reply:995 

文档 评分 :1.0 
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2.5.6 ”前 组 搜索 (PrefixQuery) 


PrefixQuery 就 是 使 用 前 绥 来 进行 查找 的 。 通 常情 况 下 ， 首 先 定义 一 个 词 条 Term。 该 词 条 
包含 要 查找 的 字段 名 以 及 关键 字 的 前 缀 ， 然 后 通过 该 词 条 构造 一 个 PrefixQuery 对 象 ， 就 可 以 
进行 前 级 查找 了 。 查 询 包 含 以 “学 ”开头 的 词 项 的 文档 ， 构 造 Query 对 象 的 代码 如 下 : 


Term term = new Term("title", "学 "); 


Query prefixQuery = new PrefixQuery (term); 


同样 省 略 IndexSearcher 搜索 文档 和 打印 结果 的 代码 ， 查 询 结 果 如 下 : 
Query:title: 学 * 

DocID:1 

Sda 

title: 北 大 迎 4380 名 新 生 农村 学 生 700 多 人 近年 最 多 

文档 评分 :1.0 


2.5.7 多 关键 字 搜 索 (PhraseQuery) 


除了 普通 的 TermQuery 外 ，Lucene 还 提供 了 一 种 Phrase 查询 功能 。 用 户 在 搜索 引擎 中 进 
行 搜索 时 ,常常 查找 的 并 非 是 一 个 简单 的 单词 , 很 有 可 能 是 几 个 不 同 的 关键 字 。 这 些 关键 字 之 
间 要 么 是 紧密 相连 的 ,成 为 一 个 精确 的 短语 , 要 么 在 这 几 个 关键 字 之 间 还 插 有 其 他 无 关 的 内 容 。 

PhraseQuery 正 是 Lucene 所 提供 的 满足 上 述 需求 的 一 种 Query 对 象 。 它 的 add 方法 可 以 让 
用 户 向 其 内 部 添加 关键 字 , 在 添加 完毕 后 ,用 户 还 可 以 通过 setSlop() 方 法 来 设 定 一 个 称 之 为 “ 坡 
度 ” 的 变量 来 确定 关键 字 之 间 是 否 允 许 或 允许 多 少 个 无 关 词汇 的 存在 。 

PhraseQuery.Builder builder = new PhraseQuery.Builder(): 

builder.add(new Term("title", "日 本 ")， 2); 


builder.add(new Term("title", "美国 ")， 3); 
PhraseQuery phraseQuery = builder.build(); 
打印 phraseQuery WR: 


Query:title:"? ? HA 美国 " 
2.5.8 ”模糊 搜索 (FuzzyQuery) 


FuzzyQuery 是 一 种 模糊 查询 ， 它 可 以 简单 地 识别 两 个 相近 的 词语 。 例 如 ， 由 于 拼写 错误 
把 “Trump” 拼 成 “Trmp” 或 者 “Tramp”， 使 用 FuzzyQuery 仍 可 搜索 到 正确 的 结果 ， 代 码 
如 下 : 


Term term = new Term("title", "Tramp"); 
FuzzyQuery fuzzyQuery = new FuzzyQuery (term); 
Query:title:Tramp~2 

DocID:2 

id:3 
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title: HE (Donald Trump) 就 任 美国 第 45 ERR 
文档 评分 :0.6056149 


2.5.9 通配符 搜索 (WildcardQuery) 
Lucene 也 提供 了 通配符 的 查询 ， 就 是 使 用 WildcardQuery。 示 例如 下 : 


WildcardQuery wildcardQuery-new WildcardQuery(new Term(field, "学 ?")); 
Query:title: * 

DocID:1 

3d:2 

title: 北 大 迎 4380 名 新 生 农村 学 生 700 多 人 近年 最 多 

文档 评分 :1.0 


2.6 Lucene 查询 高 亮 


高 亮 功能 一 直 都 是 全 文 检索 的 一 项 非常 优秀 的 模块 ， 在 一 个 标准 的 搜索 引擎 中 ， 高 亮 的 
返回 命中 结果 ,几乎 是 必 不 可 少 的 一 项 需求 ,因为 通过 高 亮 , 可 以 在 搜索 界面 上 快速 标记 出 用 
户 的 检索 关键 词 , 从 而 减少 了 用 户 自己 寻找 想 要 的 结果 的 时 间 , 在 一 定 程度 上 大 大 提高 了 用 户 
的 体验 性 和 友好 度 。Lucene 查询 高 亮 的 例子 见 代 码 清单 2-12。 


代码 清单 2-12 


import java.io. IOException; 

import java.nio.file. Path; 

import java.nio.file.Paths; 

import org.apache.lucene.analysis.Analyzer; 

import org.apache.lucene.analysis.TokenStream; 

import org.apache.lucene.document.Document; 

import org.apache.lucene.index.DirectoryReader; 

import org.apache.lucene.index.IndexReader; 

import org.apache.lucene.queryparser.classic.ParseException; 
import org.apache.lucene.queryparser.classic.QueryParser; 
import org.apache.lucene.search.IndexSearcher; 

import org.apache.lucene.search.Query: 

import org.apache.lucene.search.ScoreDoc: 

import org.apache.lucene.search.TopDocs: 

import org.apache.lucene.search.highlight.Fragmenter; 

import org.apache.lucene.search.highlight.Highlighter; 

import org.apache.lucene.search.highlight.InvalidTokenOffsetsException: 
import org.apache.lucene.search.highlight.QueryScorer; 

import org.apache.lucene.search.highlight.SimpleHTMLFormatter; 


$23 Lucene FANT 


57 


import org.apache.lucene.search.highlight.SimpleSpanFragmenter 

import org.apache.lucene.search.highlight.TokenSources; 

import org.apache.lucene.store.Directory: 

import org.apache.lucene.store.FSDirectory: 

import tup.lucene.ik.IKAnalyzeróx; 

public class HighlighterTest ( 

public static void main(String[] args) throws IOException, 

InvalidTokenOffsetsException, ParseException { 
String field = "title"; 
Path indexPath = Paths.get ("indexdir"); 
Directory dir = FSDirectory.open (indexPath); 
IndexReader reader = DirectoryReader.open (dir); 
IndexSearcher searcher = new IndexSearcher (reader); 
Analyzer analyzer = new IKAnalyzer6x(); 
QueryParser parser = new QueryParser(field, analyzer); 
Query query = parser.parse("dtK"); 
System.out.println("Query:" + query): 
QueryScorer score = new QueryScorer(query, field); 


SimpleHTMLFormatter fors = new SimpleHTMLFormatter ("<span 


style=\"color:red; \">", "</span>"); // 定 制 高 亮 标签 
Highlighter highlighter = new Highlighter(fors, score); 
// 高 亮 分 词 器 


TopDocs tds = searcher.search(query, 10); 
for (ScoreDoc sd : tds.scoreDocs) { 
Document doc = searcher.doc(sd.doc); 
" + doc.get("id")); 
+ doc.get ("title") ); 


System.out.println ("i 


System.out.println("title 
TokenStream tokenStream = TokenSources.getAnyTokenStream 
(searcher. getIndexReader(), sd.doc, field, analyzer): 
// 获取 tokenstream 
Fragmenter fragment = new SimpleSpanFragmenter (score) 
highlighter.setTextFragmenter (fragment) ; 
String str = highlighter.getBestFragment (tokenStream, 
doc. get (field) ): // 获 取 高 亮 的 片段 

System.out .Println(" 高 亮 的 片段 :" + str); 

H 

dir.close(): 

reader.close(): 
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运行 结果 : 


加 载 扩 展 词典 : ext .dic 
加 载 扩展 停止 词典 : stopword.dic 
加 载 扩 展 停止 词典 : ext stopword.dic 
Query:title: 北 大 


id:2 


title: IEA 4380 名 新 生 


农村 学 生 700 多 人 近年 最 多 


高 亮 的 片段 :<span style="color:red; "> 北大 </span> 迎 4380 名 新 生 农村 学 生 700 £ AXE 


年 最 多 


2.7.1 问题 提出 
给 出 一 篇 新 闻 文档 ， 统 计 出 现 频率 最 高 的 有 哪些 词语 。 
2.7.2 ”需求 分 析 


关于 文本 关键 词 提 取 的 算法 有 很 多 ， 开 源 工具 也 不 止 一 种 。 这 号 


2.7 Lucene 新 闻 高 频 词 提取 


有 只 介绍 如 何 从 Lucene 索 


引 中 提取 词 项 频率 的 Top N。 索 引 过 程 的 本 质 是 一 个 词 条 化 的 生存 倒 排 索引 的 过 程 ， 词 条 化 会 
从 文本 中 去 除 标点 符号 、 停 用 词 等 ， 最 后 生成 词 项 。 在 代码 中 实现 的 思路 是 使 用 IndexReader 
的 getTermVector 获取 文档 的 某 一 个 字段 的 Terms, JM terms 中 获取 tf (term frequency) ， 拿 
38 is] TY tf WSR) map 中 降序 排序 ， 取 出 Top-N。 


2.7.3 ”编程 实现 


在 百度 新 闻 上 随机 找 了 一 篇 新 闻 《李开复 : 无 人 驾驶 进入 黄金 时 代 AI 有 巨大 投资 机 会 》， 


新 闻 内 容 为 李开复 关于 人 工 智能 的 主题 演讲 。 把 新 闻 的 文本 内 容 放 在 testfile/news.txt 文件 中 ， 
索引 文档 代码 见 代码 清单 2-13。 


代码 清单 2-13 


import 
import 
import 
import 
import 
import 
import 
import 
import 


import 


java. 
java. 
java. 


java. 


java 


org. 


io.File: 


io.BufferedReader: 


io.FileReader 
io. IOException; 


-nio.file.Paths 


apache. 
. apache. 
.apache. 
.apache. 
.apache. 


lucene. 
lucene. 
lucene. 
lucene. 


lucene. 


analysis.Analyzer 
document . Document; 
document . Field; 


document . FieldType; 
index. IndexOptions; 
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import org.apache.lucene.index.IndexWriter; 


import org.apache. lucene. index. IndexWriterConfig; 


import org.apache. lucene. index. IndexWriterConfig.OpenMode; 


import org.apache.lucene.store.Directory; 


import org.apache.lucene.store.FSDirectory: 


import lucene.ik.IKAnalyzeróx; 


public class IndexDocs { 


) 


public static void main(String[] args) throws IOException ( 
File newsfile - new File("testfile/lucene.txt"); 
String textl = textToString(newsfile); 


Analyzer smcAnalyzer = new IKAnalyzer6x (true): 


IndexWriterConfig indexWriterConfig - new IndexWriterConfig( 


smcAnalyzer); 
indexWriterConfig.setOpenMode (OpenMode.CREATE) ; 
// 索引 的 存储 路 径 
Directory directory = null; 
// 索引 的 增删 改 由 indexWriter 创建 
IndexWriter indexWriter = null; 


directory = FSDirectory.open(Paths.get ("indexdir") ); 


indexWriter = new IndexWriter(directory, indexWriterConfig); 


// 新 建 RieldType， 用 于 指定 字段 索引 时 的 信息 

FieldType type = new FieldType(); 

// 索引 时 保存 文档 、 词 项 频率 、 位 置信 息 、 偏 移 信 息 

type.setIndexOptions (IndexOptions.DOCS AND FREQS AND 
POSITIONS AND  OFFSETS); 

type.setStored (true); // 原始 字符 串 全 部 被 保存 在 索引 中 

type.setStoreTermVectors (true); // 存储 词 项 量 

type.setTokenized (true); // 词 条 化 

Document docl = new Document (); 

Field fieldl = new Field("content", textl, type): 

docl.add(field1); 

indexWriter.addDocument (doc1); 

indexWriter.close(): 

directory.close(): 


public static String textToString(File file) ( 


StringBuilder result - new StringBuilder(): 

try 1 

// 构造 一 个 BufferedReader 类 来 读 取 文 件 

BufferedReader br = new BufferedReader (new FileReader(file)): 
String str = null; 

// 使 用 readLine 方法 ， 一 次 读 一行 

while ((str = br.readLine()) != null) { 
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result.append(System.lineSeparator() + str); 


br.close(): 
catch (Exception e) { 


e.printStackTrace(): 


return result.toString(): 
$ 
} 


获取 新 闻 热 词 的 代码 见 代码 清单 2-14。 


import java.io.IOException; 


import java.nio.file.Paths; 
import java.util.ArrayList; 
import java.util.Collections; 
import java.util.Comparator; 
import java.util.HashMap; 
import java.util.List; 
import java.util.Map; 
import java.util.Map.Entry; 
import org.apache. lucene. index.DirectoryReader; 
import org.apache. lucene. index. IndexReader; 
import org.apache. lucene. index.Terms; 
import org.apache. lucene. index.TermsEnum; 
import org.apache.lucene.store.Directory; 
import org.apache.lucene.store.FSDirectory: 
import org.apache.lucene.util.BytesRef; 
public class GetTopTerms ( 
public static void main(String[] args) throws IOException ( 
Directory directory -FSDirectory. open (Paths. get("indexdir")): 
IndexReader reader - DirectoryReader.open (directory): 
// 因 为 只 索引 了 一 个 文档 ， 所 以 DocID 为 0 
// 通 过 getTermVector 获取 content 字段 的 词 项 
Terms terms = reader.getTermVector(0, "content"); 
// 遍历 词 项 
TermsEnum termsEnum = terms.iterator(); 
Map<String, Integer> map = new HashMap<String, Integer>(); 
BytesRef thisTerm; 
while ((thisTerm-termsEnum.next())!- null) ( 
String termText = thisTerm.utf8ToString(): // WM 
// 通过 totalTermFreq () 方 法 获取 词 项 频率 


map.put(termText, (int) termsEnum.totalTermFreq()): 
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} 
// S value 排序 
List<Map.Entry<String, Integer>> sortedMap = new 
ArrayList<Map.Entry<String, Integer>>(map.entrySet ()); 
Collections.sort(sortedMap, new Comparator<Map.Entry< 
String, Integer>>() { 
public int compare (Map.Entry<String, Integer> ol, 
Map. Entry<String, Integer» o2) { 
return (02.getValue() - ol.getValue()): 


H: 
getTopN (sortedMap, 10); 
lh 
// 获取 top-n 
public static void getTopN(List<Entry<String, Integer>> 
sortedMap, int N) ( 
for (int i = 0; i <N; i++) { 
System.out.println(sortedMap.get(i).getKey() + ":" + 
sortedMap.get (i) .getValue()); 
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本 章 从 Lucene 的 概述 开始 讲 起 , 重点 包括 Lucene 分 词 、 索 引文 档 、 搜 索 文档 和 搜索 高 亮 
4 个 部 分 。 本 章 的 每 个 示例 都 给 出 了 代码 和 运行 结果 , “ 纸 上 得 来 终 觉 浅 ， 绝 知 此 事 要 秧 行 ”， 
希望 读者 能 够 动手 实践 ， 掌 握 Lucene 基础 。 


Lucene 文件 检索 项 目 实战 


本 章 学 习 要 点 : 
LE PV k 文件 搜索 
k 文本 内 容 抽 取 k 文件 下 载 


* 文件 的 索引 
3.1 需求 分 析 


相信 大 家 一 定 使 用 过 百度 文库 、360 文库 等 互联 网 产品 ， 以 百度 文库 为 例 ， 当 我 们 需要 查 
找 一 些 参考 文档 时 ， 会 习惯 性 地 打开 浏览 器 ， 输 入 需求 关键 词 “ 百 度 一 下 ”， 服 务 器 就 会 返回 
一 系列 相关 文档 供 我 们 阅读 、 下 载 。 如 图 3-1 所 示 ， 返 回 的 文档 格式 有 多 种 ， 常 见 的 有 Word 
X (DOC, DOCX) 、 演 示 文 稿 (PPT, PPTX) 、 文 本 文件 (TXT) 、PDF 文档 (PDF) 、 
表格 (XLS) 这 几 种 ， 搜 索 结果 还 会 把 关键 字 高 亮 显示 。 

假设 现在 有 一 批文 档 ， 文 档 格 式 有 DOC、DOCX、PPT、PPTX、TXT、PDF 这 几 种 ， 现 
在 要 实现 一 个 类 似 百度 文库 的 文件 检索 系统 。 经 分 析 ， 项 目 需 求 如 下 : 

(1) 能 够 对 文件 名 进行 检索 。 

(2) 能 够 对 文件 内 容 进 行 检索 。 

(3) 能 够 下 载 检索 到 的 文件 。 

(4) 能 够 实现 关键 字 的 高 亮 。 

第 2 章 介 绍 了 Lucene 开发 的 入 门 知识 , 本 章 通过 文件 检索 这 个 小 项 目 整 合 前 面 的 基础 知识 。 
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Baix uere a 


网 页 FA ME ME Sk HR HA 地 图 文库 更 多 » 


EJ "s 5x gès oo oe OTT POF OXIS 更 多 v | 相关 性 排序 v 


[P] lucene 简 介 原 理 及 实践 图 文 质量 4.3 分 


假定 指定 目 采 没 有 于 目录 Lucene 应 用 实例 - HRE] Fle indexDr = new File{ "DANNuceneindex" );// 
此 目录 用 于 存储 生成 的 案 引 Fle dotaDr = new... 
201401-23 | 共 48 页 | 142 次 下 载 | IFRS | MRE: dongfong_4002 


I] lucene 教 程 详解 质量 4.0 分 
(n) 返回 第 mn 个 记录 返回 第 mn 个 记录 的 Document ID 第 n 个 记录 的 相关 度 (积分 | Lucene 搜索 方法 总 结 1 .多 
字段 搜索 司 用 mullifieldqueryparser 可 以 指定 多 

20140525 | 共 45 页 | 13 次 下 载 | 2 下 载 券 | 贡献 者 : 纠结 的 记忆 


因 lucene ANSE 质量 4.4 分 
5) public Fieldlsting name bytell volue Store storej// 使 用 直接 的 二 进 制 byte ff A 当 Feld t= wel 
时 ,可 以 使 用 Lucene WICC SIRI. 

2011-0524 | 共 21 页 | ARTE | SFRB | 贡献 者 ;bytal00 


图 3-1 百度 文库 搜索 结果 页 面 


3.2 架构 设计 


文件 检索 系统 的 架构 设计 如 图 3-2 所 示 , 简单 概括 如 下 : 文件 存储 系统 中 存放 了 不 同类 型 
的 文件 , 后 台 通过 程序 提取 出 文件 名 和 文档 内 容 , 使 用 Lucene 对 文件 名 和 文档 内 容 进行 索引 ， 
前 端 对 用 户 提供 查询 接口 ， 用 户 提交 关键 词 之 后 检索 索引 库 ， 返 回 匹 配 文档 至 前 端 页 面 。 


32 文件 检索 系统 的 架构 设计 图 
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按照 图 3-2 所 示 的 系统 架构 图 , 准备 一 些 测试 文档 作为 要 检索 的 文件 系统 , 使 用 开源 工具 
Tika 完成 信息 抽取 ， 使 用 Lucene 构建 索引 ， 使 用 ISP 页 面 给 用 户 提 供 查 询 接 口 ， 使 用 Servlet 
完成 搜索 ， 构 建 类 百度 文库 的 小 型 文件 检索 系统 。 


3.8 文本 内 容 抽取 


做 文件 搜索 项 目 面临 的 第 一 个 难题 是 如 何 从 各 种 各 样 的 文件 中 抽取 出 来 内 容 ， 只 有 抽取 
出 来 内 容 才 能 进行 索引 和 搜索 。 本 节 先 来 介绍 内 容 解析 提取 工具 Apache Tika。 


3.3.1 Tika 简介 


Apache Tika 是 一 个 用 于 文件 类 型 检测 和 文件 内 容 提取 的 库 , 该 项 目 于 2007 年 3 月 开始 启 
动 ， 最 开始 是 Apache Lucene 项 目的 子 项 目 ，2010 年 5 AMA Apache 组 织 的 顶级 项 目 ， 该 项 
目的 目标 使 用 群体 主要 为 搜索 引擎 以 及 其 他 内 容 索 引 和 分 析 工 具 ， 编 程 语 言 为 Java. Tika 可 
以 检测 超过 1000 种 不 同类 型 的 文档 ， 比 如 PPT. PDF. DOC. XLS 等 ， 所 有 的 文本 类 型 都 可 
以 通过 一 个 简单 的 接口 被 解析 ，Tika 广泛 应 用 于 搜索 引擎 、 内 容 分 析 、 文 本 翻译 、 数 字 资 产 
管理 等 诸多 领域 。 

为 什么 要 使 用 Tika? 据 filext.com 网 站 统计 ， 文 件 内 容 类 型 有 几 万 种 之 多 ， 并 且 这 个 数字 
还 在 与 日 俱 增 。 数据 有 不 同 的 格式 ， 如 文本 文档 、Excel 表格 、PDF、 图 像 和 多 媒体 文件 等 ， 
应 用 程序 如 搜索 引擎 和 内 容 管理 系统 需要 从 这 些 不 同类 型 文档 中 容易 地 提取 数据 。Tika 通过 
提供 一 个 通用 的 API 来 检测 并 提取 多 种 文件 格式 的 内 容 服 务 来 达到 这 一 目的 。Tika 的 特点 
如 下 : 


e 统一 解析 器 接口 。Tika 所 有 的 第 三 方 解 析 器 库 被 封装 在 一 个 单一 的 解析 器 中 ， 由 于 这 个 特 
征 ， 用 户 减少 了 根据 不 同文 档 类 型 选择 合适 的 解析 器 库 的 负担 。 

e 低 内 存 占用 。 因 为 统一 的 解析 器 接口 ，Tika 消耗 的 内 存 资源 更 少 ， 也 很 容易 嵌入 各 种 Java 

应 用 程序 中 。 

快速 处 理 。 应 用 中 内 容 检测 和 信息 提取 可 以 预期 ， 处 理 速 度 快 。 

灵活 元 数据 。Tika 理解 所 有 用 来 描述 文件 的 元 数据 模型 。 

解析 器 集成 。Tika 可 以 使 用 单一 应 用 程序 中 每 个 文件 类 型 的 各 种 解析 器 库 。 

MIME 类 型 检测 。Tika 可 以 检测 并 从 所 有 包括 在 MIME 标准 的 媒体 类 型 中 提取 内 容 。 

语言 检测 。Tika 包括 语言 识别 功能 , 因此 可 以 在 一 个 多 语种 网 站 基于 语言 类 型 的 文档 中 使 用 。 


3.3.2 Tika 下载 


下 面 通 过 实例 来 看 如 何 使 用 Tika 这 一 利器 。 首 先 到 Tika 官网 的 下 载 页 面 
Chttps://tika.apache.org/download.html) 下 载 相 应 的 jar 包 ， 可 以 看 到 当前 版 本 为 1.13， 单 击 
“Mirrors for tika-app-1.13.jar” 之 后 选择 合适 的 镜像 源 下 载 Tika 的 jar 包 。 

Tika 可 作为 GUI 工具 使 用 。 打 开 终 端 (Windows 平台 打开 CMD 命令 行 工具 ) ,切换 到 

tika-app-1.13.jar 所 在 目录 ， 启 动 Tika， 运 行 命令 : 


e © o o o 
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java -jar tika-app-1.13.jar -g 


启动 成 功 以 后 ，Tika 客户 端 界面 如 图 3-3 所 示 。 
e^e Apache Tika 
File View CURE 


Apache 


1 " 
11g 5010101 
101100011 
101011001011 
10111010110011101 


Welcome to Apache Tika version 1.13! 


To see what Tika can do, just drop 
a file or a URL to this window. 
Use the View menu to switch views. 


3-3 Tika 启动 界面 


单 击 File 菜单 按钮 ， 可 以 选择 打开 一 个 本 地 文件 ， 也 可 以 打开 一 个 远程 URL 地 址 。 文 件 
打开 以 后 ， 默 认 情况 下 显示 的 是 文本 的 元 数据 信息 ， 如 图 3-4 所 示 。 如 果 想 查看 更 多 内 容 ， 可 
以 单 击 View 菜单 ， 分 别 查 看 文档 的 元 数据 信息 、 格 式 化 之 后 的 文本 内 容 、 纯 文本 内 容 、 核 心 
内 容 、 结 构 化 文本 内 容 以 及 递归 转换 后 的 ISON 文本 。 


@ ^ @ Apache Tika: 中 国人 工 智 能 大 会 CCAI 2016 园 满 落幕 .pdf 
File BV Help 


Formatted text )5:17:172 

Plain text parser.DefaultParser 

Main content parser.pdf.PDFParser 
Structured text ‘ce55b61d3a0275b31dde1353 
Recursive JSON 


bd59020c0u-rau27201092ereFde 10760275 8d5d93a8075f4abF368e0e2 392a7 
access_permission:assemble_document: true 

Iccess permission:can modify: true 

ICcess permission:can print: true 

ccess permission:can print degraded: true 

ccess permission:extract content: true 


la 


图 3-4 Tika 解析 PDF 文件 


3.3.3 ”搭建 工程 
这 一 小 节 介绍 如 何在 Java 程序 中 使 用 Tika， 创 建 Java 工程 的 步骤 如 下 : 


€o) 打开 Eclipse, 36 java project， 把 工程 命名 为 TikaDemo。 

EI 在 工程 根 目 录 下 新 建 一 个 lib SH, HN tika-app-1.13 jar 到 lib 目录 下 。 

203 选中 tika-app-1.13jar 并 右 击 ， 在 打开 的 快捷 菜单 中 依次 选择 Build Path 一 Add to Build 
Path， 把 jar 包 加 入 工程 类 路 径 下 ， 然 后 就 可 以 在 java 类 中 调用 Tika 提供 的 各 种 API 

EI 添加 完 jar 包 以 后 在 工程 根 目 录 下 新 建 一 个 files 文件 夹 用 于 存放 测试 文件 , 这 里 我 们 在 
files 文件 夹 下 放 了 DOC、DOCX、PDF、TXT、PPTX 5 种 类 型 的 文件 。 

Gam 最 后 ， 新 建 一 个 名 为 TikaParsePdf 的 Java 类 。 
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上 述 步 又 完成 以 后 ， 工 程 目录 结构 如 图 3-5 所 示 。 


TE TikaDemo 
v (src 
v HB tup.tika.demo 
> |J) TikaParsePdf.java 
> mi JRE System Library [.JavaSE- 1.8] 
Y Bà Referenced Libraries 
> (9 tika-app-1.13.jar 
* (files 
[E 2016 中 国人 工 智能 大 会 大 咖 云 集 探讨 人 工 智能 .doc 
S 2016 中 国人 工 智能 大 会 顶尖 专家 齐 聚 .pptx 
国 2016 中 国人 工 智能 大 会 在 京 召 开 .docx 
|=) 如 何 使 用 JSON.doc 
B 中 国人 工 智能 大 会 CCAI 2016 圆 满 落幕 .pdf 
国 中 科 院 副 院 长 : 人 工 智 能 找 风口 不 如 找 关口 .txt 
[5j JavaScript 闭 包 详解 .docx 
Vv lib 
X tika-app-1.13 jar 


图 3-5 Tika 工程 目录 结构 


3.84 内 容 抽 取 


在 TikaParsePdfjava 中 编写 Java 代码 ， 提 取出 PDF 文件 中 的 文本 内 容 ， 最 后 打印 到 控制 
台 ， 见 代码 清单 3-1。 


代码 清单 Tika 提取 PDF 文件 内 容 


import 
import 
import 
import 
import 
import 
import 
import 


import 


public 


java.io.File; 

java.io.FileInputStream; 

java.io. IOException; 
org.apache.tika.exception.TikaException; 
org.apache.tika.metadata.Metadata; 
org.apache.tika.parser.ParseContext; 
org.apache.tika.parser.pdf.PDFParser; 
org.apache.tika.sax.BodyContentHandler; 
org.xml.sax.SAXException; 


class TikaParsePdf { 


public static void main(String[] args) throws IOException, 


SAXException, TikaException { 

// 文件 路 径 

String filepath = "files/ 中 国人 工 智能 大 会 CCAI 2016 圆满 幕 .pdf"7 
// 新 建 Pile TR 

File pdfFile = new File(filepath); 

// 创建 内 容 处 理 器 对 象 

BodyContentHandler handler = new BodyContentHandler (); 


第 3 章 Lucene 文件 检索 项 目 实战 67 


// 创建 元 数据 对 象 

Metadata metadata = new Metadata(); 

// 读 入 文件 

FileInputStream inputStream = new FileInputStream(pdfFile) ; 

// InputStream inputStream-TikaInputStream.get (pdfFile) ; 

// 创建 内 容 解析 器 对 象 

ParseContext parseContext = new ParseContext (); 

// 实例 化 PDFParser WR 

PDFParser parser = new PDFParser(); 

// 调用 parse () 方 法 解析 文件 

parser.parse(inputStream, handler, metadata, parseContext); 

// 遍历 元 数据 内 容 

System.out .println ("文件 属性 信息 :"); 

for (String name : metadata.names()) { 
System.out.println(name + ":" + metadata.get (name)); 

} 

// 打印 pdf 文件 中 的 内 容 

System.out.println ("pdf 文件 中 的 内 容 :") ; 

System.out.println(handler.toString()); 


I; 
运行 结果 如 图 3-6 所 示 。 


|f. Probioms @ Javadoc |i Deciaration () Consolo $1 a 
X RMS OS mcr. 

terminated» Tikaparsepdl (Jeve Apolcation) lLibrerylJeve/JarevirtuaMechinesfick1.8.0.91.jdNCon| 

Ere: 

pdf: PDFVersion:1.S 

xmp:CreatorTool: XeTeX output 2016.10.07:1317 

access. peri ssion:modi fy_annotations: true 

access, permission:can. print. degraded: true 

neta: creation-date:2016-10-@7T05:17:17Z 

created:Fri Oct 07 13:17:17 CST 2016 

access. perrission:extroct for accessibility:true 

access. perri ssion:ossemble docurent:true 

xmpTPg:NPages :1 

Creation-Date:2016-10-07T05:17:172 

deterns: created:2016-10-07105:17:172 

de: format :opplication/pdf; version-1.5 

access. perri sion: extroct. content: true 

access, permission:can print:true 

access. permission: fill_in_form:true 

pdf: encrypted: false 

producer: xdvipdfmx (20160307) 

access. permission: can modi fy: true 

Content-Type: application/pdf 

pdf 文件 中 的 内 容 : 


8 月 26 日 至 27 日 ， 在 中 国 科学 技术 协会 中 国 科学 院 的 指导 下 ， 由 中 国人 
工 智能 学 会 发 起 主办 、 中 科 院 自动 化 研究 所 与 CSDN 共同 承办 的 2016 中 
国人 工 智能 大 会 〈CCAI 2016) 在 北京 辽宁 大 大 盛大 召开 ， 这 也 是 本 年 度 国 


3-6 TikaPDF 文件 运行 结果 


上 面 的 例子 实现 了 如 何 使 用 Tika 读 取 本 地 文件 中 的 内 容 , files 目录 下 放 了 一 个 PDF 文件 
用 于 做 测试 ， 在 主 函 数 中 首先 创建 一 个 File 对 象 pdfFile， 传 入 参数 为 PDF 文件 的 路 径 ， 通 过 
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文件 路 径 作为 参数 实例 化 一 个 文件 对 象 ， 这 样 一 来 在 程序 中 pdfFile 就 指向 了 PDF 文件 。 目 标 
是 要 提取 的 文件 的 文本 内 容 ， 因 此 需要 实例 化 BodyContentHandler 对 象 ， 创 建 Metadata 对 象 
用 于 获取 文件 属性 。 之 后 实例 化 一 个 FileInputStream 对 象 ， 将 pdfFile 对 象 作为 参数 传 给 
FileInputStream 类 的 构造 方法 , 但 是 使 用 这 种 输入 流 不 支持 随机 访问 读 取 文 件 ， 如 果 想 要 更 高 
效 地 处 理 各 种 类 型 的 文件 ， 可 以 使 用 Tika 提供 的 TikaInputStream 类 。 接 下 来 创建 一 个 解析 上 
下 文 的 ParseContext 对 象 并 实例 化 一 个 PDF 解析 器 对 象 ， 然 后 调用 PDF 解析 器 对 象 的 parse 
方法 ， 并 传 入 所 有 需要 的 4 个 参数 ， 包 含 任何 文件 内 容 的 InputStream 对 象 、ContentHandler 
对 象 、metadata 元 数据 对 象 和 ParseContext 对 象 。 解 析 完 成 以 后 可 以 通过 内 容 处 理 器 对 象 ( 本 
实例 中 的 handler) 的 toString() 方 法 输出 文件 内 容 ， 文 件 属性 名 保存 在 元 数据 对 象 的 names() 
方法 中 ， 返 回 结果 是 字符 数组 ， 遍 历 属 性 名 数组 通过 元 数据 对 象 的 get() 方 法 得 到 属性 信息 。 

上 面 的 例子 是 如 何 提取 PDF. 格式 的 文件 内 容 以 及 元 数据 信息 ， 那 么 该 如 何 处 理 其 他 类 型 
的 文件 呢 ? 我 们 注意 到 ， 在 创建 解析 器 对 象 的 时 候 使 用 的 是 PDFParser 类 ，PDFParser 类 适用 
于 解析 PDF 格式 的 文件 ， 如 果 想 解析 其 他 类 型 的 文件 ， 就 需要 更 改 解析 器 接口 类 型 。 下 面 一 
一 列 出 创建 解析 不 同类 型 文件 所 需要 的 解析 器 对 象 的 方法 : 


e 解析 MS Office 文档 : 


OOXMLParser parser = new OOXMLParser (); 
。 解析 文本 文件 : 


TXTParser parser = new TXTParser(); 


。 解析 HTML 文件 : 


HtmlParser parser = new HtmlParser(); 

o 解析 XML 文件 : 

XMLParser parser = new XMLParser(); 

。 解析 class 文件 : 

ClassParser parser = new ClassParser(); 

读者 可 以 把 TikaParsePdfjava 中 的 文件 路 径 加 以 修改 ， 根 据 文 
档 类 型 采用 不 同 的 解析 器 接口 进行 实验 。 除 了 解析 常见 的 文档 类 文 


件 ，Tika 还 可 以 解析 图 像 、 音 频 (如 MP3) 、 视 频 (如 MP4) 等 
多 种 类 型 的 文件 。 


3.3.5 自动 解析 

上 述 解析 PDF 的 例子 的 流程 大 致 如 下 : 确定 要 解析 PDF 文件 
一 实例 化 PDFParser 一 提取 内 容 , 如 果 要 提取 的 文档 类 型 不 止 一 种 ， 
又 该 如 何 处 理 ? Tika 的 强大 之 处 正在 于 此 ， 它 可 以 先 判断 文档 类 
型 ， 再 根据 文档 类 型 实例 化 解析 器 接口 ， 流 程 如 图 3-7 所 示 。 图 3-7 文档 自动 解析 流程 
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自动 解析 文档 的 分 析 过 程 如 下 
CD 首先 ， 传 入 一 个 文件 到 Tika， 文 件 类 型 可 以 是 任意 的 ，Tika 使 用 自身 的 类 型 检测 机 
制 来 检测 文件 类 型 。 


(2) Tika 提供 了 一 个 解析 器 库 ， 解 析 器 库 中 包含 多 种 类 型 的 解析 器 。 一 旦 文档 类 型 被 检 
测 出 来 ， 下 一 步 就 可 以 根据 已 知 的 文档 类 型 从 解析 器 库 中 选择 合适 的 解析 器 。 

(3) 选择 合适 的 解析 器 以 后 就 可 以 把 文档 传送 到 解析 器 中 ， 解 析 完 成 后 即 可 进行 文档 内 
容 提取 、 元 数据 提取 。 


下 面 介绍 使 用 Tika 对 象 和 使 用 Parser 接口 两 种 方法 进行 内 容 提取 。 使 用 Tika 对 象 提取 文 
档 内 容 的 Java 代码 见 代 码 清单 3-2。 


代码 清单 3-2 使 用 Tika 对 象 提取 文档 内 容 


import java.io.File; 
import java.io.IOException; 
import org.apache.tika.Tika; 
import org.apache.tika.exception.TikaException; 
public class TikaExtraction { 
public static void main(String[] args) 
throws IOException, TikaException { 
Tika tika = new Tika(); 
// 新 建 存放 各 种 文件 的 files 文件 夹 
File fileDir = new File("files"); 
// 如 果 文 件 夹 路 径 错 误 ， 退 出 程序 
if (!fileDir.exists()) { 
System.out .println ("文件 夹 不 存在 ,请 检查 !") ; 
System.exit (0); 
} 
// 获取 文件 夹 下 的 所 有 文件 ， 存 放 在 File 数组 中 
File[] fileArr = fileDir.listFiles(); 
String filecontent; 
for (File f : fileArr) { 
filecontent = tika.parseToString(f);// 自动 解析 
System.out.println("Extracted Content: " + filecontent) ; 


) 


上 述 代 码 首先 新 建 了 一 个 File 对 象 指 向 存放 各 种 文档 的 文件 夹 ， 通 过 File 对 象 的 exists() 
方法 判断 文件 夹 路 径 是 否 正确 ， 如 果 路 径 错 误 则 退出 程序 ， 打 印 提示 信息 。 接 下 来 ， 通 过 
listFiles() 方 法 获取 files 目录 下 所 有 的 文件 ， 存 放 在 文件 数组 之 中 。 最 后 新 建 一 个 Tika 对 象 ， 
调用 parseToString() 方 法 获取 文档 内 容 ， 该 方法 的 传 入 参数 为 File 对 象 。 

使 用 Tika 对 象 提取 文档 内 容 的 Java 代码 见 代 码 清单 3-3。 
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代码 清单 3-3 ”使 用 Parser 接口 提取 文档 内 容 


import java.io.File; 
import java.io.FileInputStream; 


import java.io.IOException; 


import org.apache.tika.exception.TikaException; 


import org.apache.tika.metadata.Metadata; 


import org.apache.tika.parser.AutoDetectParser; 


import org.apache.tika.parser.ParseContext; 
import org.apache.tika.parser.Parser; 

import org.apache.tika.sax.BodyContentHandler; 
import org.xml.sax.SAXException; 


public class ParserExtraction ( 


public static void main(String[] args) throws IOException, 


SAXException, TikaException ( 

// 新 建 存放 各 种 文件 的 files 文件 夹 
File fileDir = new File("files"); 
// 如 果 文 件 夹 路 径 错误 ， 退 出 程序 


if (!fileDir.exists()) { 


System.out.println ("文件 夹 不 存在 ， 请 检查 !") ; 


System.exit (0); 
} 
// 获取 文件 夹 下 的 所 有 文件 ， 存 放 在 File 数组 中 
File[] fileArr = fileDir.listFiles(); 
// 创建 内 容 处 理 器 对 象 


BodyContentHandler handler = new BodyContentHandler(); 


// 创建 元 数据 对 象 

Metadata metadata = new Metadata(); 
FileInputStream inputStream = null; 
Parser parser = new AutoDetectParser(); 


// 自动 检测 分 词 器 


ParseContext context = new ParseContext (); 


for (File f : fileArr) { 
inputStream = new FileInputStream(f); 


parser.parse(inputStream, handler, metadata, context); 


System.out.println(f.getName() + ":\n" 
.toString()); 


H 
使 用 Parse 接口 自动 提取 内 容 和 前 面 单一 的 提取 一 种 文档 的 


+ handler 


区 别 在 于 实例 化 对 象 不 一 样 ， 


AutoDetectParser 是 CompositeParser 的 子 类 ， 它 能 够 自动 检测 文件 类 型 ， 并 使 用 相应 的 方法 把 


接收 到 的 文档 自动 发 送 给 最 接近 的 解析 器 类 。 
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34 工程 搭建 


通过 3.3 节 的 学 习 , 文件 内 容 抽取 问题 已 经 解决 了 。 下 面 介绍 如 何 从 零 开始 构建 文件 检索 
系统 ， 在 开始 之 前 确保 计算 机 已 经 正确 安装 Java、Eclipse、Apache Tomcat。 

250) 在 Eclipse 中 新 建 一 个 Java Web 工 程 .启动 Eclipse, 单 击 File->New->Dynamic Web Project, 
工程 名 命名 为 filesearch， 如 图 3-8 所 示 。 
CX02 单 击 Target runtime 下 方 的 “New Runtime“ 按 钮 设置 Tomcat 路 径 ， 如 图 3-9 所 示 。 我 
们 选择 Apache Tomcat 7.0， 找 到 Tomcat 所 在 位 置 ， 选 定 JRE 版 本 为 1.8， 最 后 单 击 Finish。 


. e New Dynamic Web Project . e New Server Runtime Environment 
Dynamic Web Project — TES 
Create a standalone Dynamic Web project or add ittoanewor — | o 
existing Enterprise Application. a Specify the instalation directory 
Project name: | flosoarch| 
Name: 
Project location 
Apache Tomcat v7.0 
Use default location 
Tomcat installation directory: 
Location: 
lUsers/yacpan/Documents/apache-tomcat-7.0.72. Browse... 
‘Target runtime a € € 
«None» JB Now Runtime... 


JRE: 


Dynamic web module version 
Java SE 8 [1.8,0.101] B Installed JRES... 
25 B 


Configuration 

«custom» Modify... 
Hint: Get started quickly by selecting one of the pre-defined project 
configurations. 
EAR membership 


Add project to an EAR 


EAR project name: 
Working sots 
® Next > Cancel Finish Q « Back Cancel 
图 3-8 新建 一 个 Java Web 工程 图 3-9 设置 Tomcat 路 径 


EI 设置 完 运行 环境 以 后 ， 下 面 的 Dynamic web module version 选择 2.5， 选 择 2.5 版 本 的 会 
在 WebContent 的 WEB-INF 目录 下 自动 生成 web.xml。 

€o) 单 击 Finish 按钮 ， 一 个 Java Web 项 目 创建 完成 。 

[ ^x (E 在 Tomcat 中 运行 Web 工程 。 

WebContent 目录 下 新 建 一 个 index.jsp， 在 body 标签 之 间 加 上 一 个 hl 标签 并 输入 “Hello Lucene 

“字符 串 作 为 首页 的 提示 信息 。 然 后 选中 工程 名 并 右 击 ， 依 次 选择 Run As 一 Run on Server— Tomcat 

v7.0 Server at localhost 一 Finish， 待 服务 器 启动 以 后 打开 浏览 器 访问 : http;//localhost:8080/filesearch, iz 
行 效果 如 图 3-10 所 示 。 
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€X306 添加 jar 包 。 $$ WF Wi jar 包 到 filesearch/WebContent/WEB-INF/lib : 


IKAnalyzer2012 u6.jar 、 lucene-analyzers-common-6.0.0jar 、 


lucene-analyzers-smartcn-6.0.0.jar 、 


lucene-core-6.0.0.jar ~ lucene-highlighter-6.0.0.jar ~ lucene-memory-6.0.0.jar ~ lucene-queries-6.0.0.jar 、 


lucene-queryparser-6.0.0.jar. tika-app-1.13.jar 


CE) 新 建 包 和 资源 文件 夹 。 在 Web 工程 的 se 目录 下 新 建 3 个 包 ， 分 别 命名 为 


lucene.file.search.controller. lucene.file.search.model. lucene. 


包 中 主要 存放 Servlet 12538, lucene.file.search.model 用 于 存放 实体 类 ，lucene .file.search.servi 


存放 工具 类 。 然 后 ， 在 WebContent 目录 下 新 建 一 个 名 为 css 的 文件 夹 用 于 存放 样式 表 文件 ， 新建 一 个 
BA files 的 文件 夹 用 于 存放 要 检索 的 各 种 类 型 的 文档 ， 新 建 一 个 名 为 images 的 文件 夹 
资源 ， 新 建 一 个 名 为 indexdir 的 文件 夹 用 于 存放 索引 库 。 最 后 在 files 目录 下 放置 一 些 文档 


file.search.service. lucene.file.search.controller 


ce 上 


于 存放 图 片 


即 被 搜索 的 对 象 。 本 实例 中 的 文档 格式 有 DOC, DOCX, PPTX, PDF, TXT 5 种 。 
经 过 以 上 几 个 步骤 ,Lucene 文件 检索 系统 的 环境 已 经 搭建 完成 , 工程 目录 如 图 3-11 所 示 。 


> Indexjsp @ Insert titie here. 22 = 


n 
WS [htip://localhost:BO80/filesearch/ Bee 


Hello Lucene! 


图 3-10 Web 工程 首页 信息 


Y 22 filesearch 
Y P9 Java Resources. 
v (src 
fH lucene.file.search.controller 
£H lucene.file.search.model 
fH lucene.file.search.service 
> gi Libraries 
> (5 build 
™ E WebContent 
css 
> files 
images 
B indexdir 
> E> META-INF 
Y © WEB-INF 
M-I- 
S IKAnalyzer2012, u6.jar 
8 lucene-analyzers-common-6.0.0.jar 
S lucene-analyzers-smartcn-6.0.0.jar 
S lucene-core-6.0.0.jar 
S lucene-highlighter-6.0.0.jar 
Sy lucene-memory-6.0.0.jar 
S lucene-queries-6.0.0.jar 
y lucene-queryparser-6.0.0.jar 
S tika-app-1.13.jar 
四 web.xml 
E index.jsp 


图 3-11 工程 目录 


35 索引 文档 


工程 搭建 完成 以 后 ， 首 先进 行 索引 的 构建 。 要 检索 的 对 象 是 文件 ， 为 了 简单 起 见 ， 
只 索引 文档 名 和 文档 内 容 。 利 用 Java 面向 对 象 的 思想 ， 在 lucene.file.search.model 目录 下 新 建 
一 个 实体 类 ， 类 名 为 FileModel， 表 示 文 件 对 象 ， 设 置 title 和 content 两 个 String 类 型 的 成 员 变 


量 并 提供 对 应 的 setter 和 getter 方法 ， 最 后 添加 一 个 有 参 构造 方法 ， 示 例 见 代码 清 间 


测试 ， 


我 们 


fi 3-3. 


$33 Lucene 文件 检索 项 目 实战 73 


代码 清单 3-3 ”使 用 Parser 接口 提取 文档 内 容 


package lucene. file.search.model; 

public class FileModel { 
private String title;// 文件 标题 
private String content;// 文件 内 容 
public String getTitle() { 


return title; 

} 

public void setTitle(String title) { 
this.title = title; 

} 

public String getContent() { 
return content; 

5 

public void setContent(String content) ( 
this.content - content; 

) 

public FileModel() ( 

) 

public FileModel(String title, String content) ( 
this.title - title; 


this.content - content; 


) 


在 lucene.file.search.service 目录 下 新 建 一 个 创建 索引 的 Java 类 ， 类 名 为 Createlndex, 在 
类 中 添加 两 个 静态 方法 : extractFile() 方 法 和 ParserExtraction() 方 法 。extractFile() 方 法 用 于 列 出 
WebContent/files 目录 下 的 所 有 文件 ， 返 回 值 类 型 为 FileModel 类 型 的 列表 。Java 代码 如 下 : 


public static List<FileModel> extractFile() throws IOException { 
ArrayList<FileModel> list = new ArrayList<FileModel>(); 
File fileDir = new File("WebContent/files") ; 
File[] allFiles = fileDir.listFiles(); 
for (File f : allFiles) { 
FileModel sf - new FileModel(f.getName(), ParserExtraction(f)); 
list.add(sf); 
) 
return list; 


) 


ParserExtraction() 方 法 的 功能 是 使 用 Tika 提取 文档 内 容 ， 传 入 参数 为 一 个 File HR. Java 
代码 如 下 : 
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public static String ParserExtraction(File file) { 


String fileContent = 


BodyContentHandler handler = new BodyContentHandler(); 

Parser parser = new RutoDetectParser();// 自 动 解析 器 接口 

Metadata metadata = new Metadata(); 

FileInputStream inputStream; 

try í 
inputStream = new FileInputStream (file); 
ParseContext context = new ParseContext (); 
parser.parse(inputStream, handler, metadata, context); 
fileContent = handler.toString(); 

} catch (FileNotFoundException e) { 
e.printStackTrace(); 

) catch (IOException e) ( 
e.printStackTrace(); 

) catch (SAXException e) ( 
e.printStackTrace(); 

) catch (TikaException e) ( 
e.printStackTrace(); 

) 

return fileContent; 


) 


分 词 器 使 用 IK 分 词 ， 把 IKTokenizeróxjava 和 IKAnalyzer6x.java Jit 到 
lucene.file.search.service 包 下 (Lucene 6.0 中 使 用 IK 分 词 器 的 方法 参考 第 2 章 ) . CreateIndex 
类 中 新 建 主 函 数 ， 代 码 如 下 : 


public static void main(String[] args) throws IOException { 
// IK 分 词 器 对 象 
Analyzer analyzer = new IKAnalyzer6x(); 
IndexWriterConfig icw = new IndexWriterConfig (analyzer); 
icw.setOpenMode (OpenMode.CREATE) ; 
Directory dir = null; 
IndexWriter inWriter = null; 
Path indexPath = Paths.get ("WebContent/indexdir") ; 
FieldType fileType = new FieldType(); 
fileType.setIndexOptions (IndexOptions. 

DOCS AND FREQS AND POSITIONS AND OFFSETS); 
fileType.setStored (true); 
fileType.setTokenized (true); 
fileType.setStoreTermVectors (true); 
fileType.setStoreTermVectorPositions (true); 
fileType.setStoreTermVectorOffsets (true); 
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} 


Date start = new Date();// 开始 时 间 

if (!Files.isReadable(indexPath)) { 
System.out.println(indexPath.toAbsolutePath() + "不 存在 或 

者 不 可 读 ， 请 检查 !") ; 

System.exit(1); 

} 

dir = FSDirectory.open(indexPath); 

inWriter = new IndexWriter(dir, icw); 

ArrayList<FileModel> fileList = (ArrayList<FileModel>) 

extractFile(); 

// 遍历 fileList, 建 立 索引 

for (FileModel f : fileList) { 
Document doc = new Document (); 
doc.add(new Field("title", f.getTitle(), fileType)); 
doc.add(new Field("content", f.getContent(), fileType)); 
inWriter.addDocument (doc) ; 

) 

inWriter.commit(); 

inWriter.close(); 

dir.close(); 

Date end = new Date();// 结束 时 间 

// 打印 索引 耗 时 

System. out .println ("索引 文档 完成 , 共 耗 时 :" + (end.getTime() - 
start.getTime())* "毫秒 ."); 


运行 CreateIndex 类 中 的 main 方法 ，/filesearch/WebContent/files 目录 下 的 所 有 文档 ， 不 论 
是 什么 格式 ， 文 件 名 和 文件 内 容 都 被 写 入 到 了 Lucene 索引 。 


3.6 查询 界面 


索引 构建 完成 以 后 ， 我 们 来 看 看 如 何 实现 前 端的 用 户 接口 ， 换 言 之 就 是 在 后 台 接收 用 户 的 
查询 关键 词 。 编 辑 index.jsp， 在 indexjsp 中 加 入 一 个 form， 包 含 一 个 输入 框 和 一 个 提交 按钮 。 


form 中 可 以 设置 参数 ，action="SearchFile" 表 示 单 才 


Ff 提交 按钮 之 后 输入 框 中 的 内 容 会 被 名 为 


SearchFile 的 Servlet 接收 ，method="get" 表 示 使 用 的 是 HTTP 的 get 方法 。SearchFileServlet 我 们 
会 在 后 面 实现 ， 先 使 用 前 端 技术 实现 一 个 简单 的 搜索 界面 ， 为 了 界面 的 美观 ， 加 了 一 个 logo 并 
使 用 CSS 调整 页 面 样式 。head 标签 中 的 <link type="text/css" rel="stylesheet" href="css/index.css"> 
一 行 用 于 引入 WebContent/css 目录 下 的 CSS 文件 。index.jsp 的 代码 见 代 码 清单 3-4。 
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代码 清单 3-4 


<%@ page language="java" contentType="text/html; charset=UTF-8" 


pageEncoding="UTF-8" import="java.util.Calendar"%> 
<% 
Calendar cal = Calendar.getInstance(); 
int year = cal.get(Calendar.YEAR); // 获 取 年 份 
$> 
<!DOCTYPE html> 
<html> 
<head> 
<meta http-equiv="Content-Type" content="text/html; charset=UTF-8"> 
<title>lucene 文件 检索 </title> 
<link type="text/css" rel="stylesheet" href="css/index.css"> 
</head> 
<body> 


<div class="indexbox"> 


<div class="logo"> 
<a href="index.jsp"><img alt=" 文 件 检索 " src="images/logo.png"> </a> 
</div> 

<div class="searchform"> 


<form action="SearchFile" method="get"> 


<input typ text" name="query"> 
<input type="submit" value=" 搜 索 "> 
</form> 
</div> 


<div class="info"> 
<p> 基 于 Lucene 的 文件 检索 系统 </p> 
<br /> 
<p>&copy; <%=year > 2016 ? (2016 + "-" + year) : year%> 

清华 大 学 出 版 社 All rights Reserved</p> 

</div> 
</div> 

</body> 

</html> 


CSS 样式 的 内 容 不 在 本 书 的 讲解 范围 之 内 ， 读 者 可 以 到 本 项 目的 源 代 码 中 查看 CSS 的 内 
容 ， 代 码 不 在 此 给 出 。 重 启 Tomcat 服务 器 ， 首 页 界面 效果 如 图 3-12 所 示 。 
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3-12 ”用户 查 询 界面 


3.7 ”文件 检索 


用 户 在 查询 界面 提交 的 查询 关键 词 需要 被 后 台 接收 ， 接 收 任务 是 由 Servlet 完成 的 。 在 


lucene.file.search.controller 包 下 新 建 一 个 Java 类 ， 类 名 为 SearchFileServlet， 继 承 HttpServlet 
类 并 重 写 doGet 和 doPost 方法 。 代 码 如 下 : 


public class SearchFileServlet extends HttpServlet { 
protected void doGet (HttpServletRequest request, HttpServletResponse 
response) throws ServletException, IOException { 

System.out.println("SearchFileServlet"); 

) 

protected void doPost(HttpServletRequest request, HttpServletResponse 
response) throws ServletException, IOException { 

doGet (request, response); 


} 
修改 web.xml, fE«web-app» </web-app> 标 签 中 添加 一 下 配置 : 


<servlet> 
<description>SearchFileServlet</description> 
<display-name>SearchFileServlet</display-name> 
<servlet-name>SearchFileServlet</servlet-name> 
<servlet-class> 

lucene.file.search.controller.SearchFileServlet 

</servlet-class> 

</servlet> 

<servlet-mapping> 
<servlet-name>SearchFileServlet</servlet-name> 
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<url-pattern>/SearchFile</url-pattern> 


</servlet-mapping> 


<servle 人 元 素 是 用 于 配置 信息 ， 指 定 servlet-name 为 SearchFileServlet， 对 应 的 类 路 径 为 
lucene.file.search.controller.SearchFileServlet. <servlet-mapping> 元 素 是 在 Servlet 和 URL 样式 之 
间 定 义 一 个 映射 ， 即 servlet 类 提供 一 个 url， 在 地 址 栏 输入 对 应 的 映射 路 径 就 可 以 访问 对 应 的 
servlet. 我 们 在 doGet 方法 中 输出 字符 提示 信息 用 于 测试 Servlet 是 否 配置 成 功 , 之 后 重启 服务 
器 , 访问 http://localhost: 8080/filesearch/SearchFile, Eclipse 的 控制 台中 输出 “SearchFileServlet” 
提示 ， 说 明 Servlet 配置 成 功 。 

Servlet 配置 正确 以 后 ， 用 户 在 查询 界面 提交 查询 关键 词 以 后 ， 就 可 以 在 SearchFileServlet 
类 中 接收 参数 进行 搜索 。 在 SearchFileServletjava 中 添加 一 个 搜索 文档 的 方法 ， 返 回 结果 为 
FileModel 类 型 的 list， 传 入 参数 为 查询 关键 词 、 索 引路 径 、 返 回 文档 的 条 数 。 代 码 如 下 : 


public static ArrayList<FileModel> getTopDoc(String key, String 


indexpathStr,int N) { 
ArrayList<FileModel> hitsList = new ArrayList«FileModel»(); 
// 检 索 域 


String[] fields = { "title", "content" }; 
Path indexPath = Paths.get (indexpathStr) ; 
Directory dir; 
try { 
dir = FSDirectory.open (indexPath) ; 
IndexReader reader = DirectoryReader.open (dir); 
IndexSearcher searcher = new IndexSearcher (reader) ; 
Analyzer analyzer = new IKAnalyzer6x(); 
MultiFieldQueryParser parser2 = new 
MultiFieldQueryParser (fields, analyzer); 
// 查询 字符 串 
Query query = parser2.parse (key); 
TopDocs topDocs = searcher.search(query, N); 
// 定制 高 亮 标签 
SimpleHTMLFormatter fors = new SimpleHTMLFormatter("«span 
style=\"colo r:red;\">", "</span>"); 
QueryScorer scoreTitle = new QueryScorer(query, fields[0]); 
Highlighter hlqTitle = new Highlighter(fors, scoreTitle); 
QueryScorer scoreContent = new QueryScorer(query, fields[0]); 
Highlighter hlqContent = new Highlighter(fors, scoreTitle); 
TopDocs hits = searcher.search(query, 100); 
for (ScoreDoc sd : topDocs.scoreDocs) { 
Document doc = searcher.doc(sd.doc) ; 
String title = doc.get("title"); 
String content = doc.get ("content"); 


TokenStream tokenStream = TokenSources.getAnyTokenStream 
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(searcher.getIndexReader(), sd.doc, fields[0], 
new IKAnalyzer6x());// 获取 tokenstream 
Fragmenter fragment = new SimpleSpanFragmenter (scoreTitle) ; 
hlqTitle.setTextFragmenter (fragment) ; 
String hl_title = hlqTitle.getBestFragment (tokenStream, title); 
// 获取 高 亮 的 片段 ， 可 以 对 其 数量 进行 限制 
tokenStream = TokenSources.getAnyTokenStream(searcher. 
getIndexReader(), sd.doc, fields[1],new IKAnalyzer6x()); 
fragment = new SimpleSpanFragmenter (scoreContent); 
hlqContent.setTextFragmenter(fragment); 
String hl content - hlqTitle.getBestFragment (tokenStream, 
content);// 获取 高 亮 的 片段 ， 可 以 对 其 数量 进行 限制 
FileModel fm = new FileModel(hl title != null ? hl title 
title,hl content !- null ? hl content : content); 
hitsList.add(fm); 


dir.close(); 
reader.close(); 

) catch (IOException e) ( 
e.printStackTrace(); 

) catch (ParseException e) ( 
e.printStackTrace(); 

) catch (InvalidTokenOffsetsException e) { 
e.printStackTrace(); 

$ 

return hitsList; 

} 


继续 完善 doGet 方法 ， 先 使 用 request 对 象 的 getParameter() 方 法 接收 index.jsp 中 传 来 的 表 
单字 符 串 ， 如果 查询 字符 串 接收 正确 则 调用 getTopDoc() 方 法 ， 把 查询 结果 放 到 request 作用 域 
中 ; 如 果 查 询 字符 串 为 空 则 转 到 错误 页 面 。 完 整 的 doGet 方法 如 下 : 


protected void doGet (HttpServletRequest request, HttpServletResponse 

response) throws ServletException, IOException { 

// 索 引路 径 

String indexpathStr = request.getServletContext () 
.getRealPath ("/indexdir"); 

// 接 收 查 询 字符 串 

String query = request.getParameter ("query") ; 

// 编 码 格式 转换 

query = new String(query.getBytes("iso8859-1"), "UTF-8"); 

if (query.equals("") || query == null) { 
System.out .println(" 参 数 错 误 ! 
request .getRequestDispatcher ("error.jsp") 
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-forward(request, response); 
) else ( 
ArrayList«FileModel» hitsList = getTopDoc (query, indexpathStr,100); 
System.out .Println(" 共 搜 到 :" + hitsList.size() + "条 数据 !") ; 
request.setAttribute("hitsList", hitsList) ; 
request.setAttribute("queryback", query); 
request.getRequestDispatcher ("result.jsp").forward (request, 


response); 


3.8 结果 展示 


在 WebContent 目录 下 新 建 errorjsp， 添 加 提示 信息 ， 在 <head></head> 标 签 中 设置 5 秒 后 
自动 跳 转 到 indexjsp， 代 码 如 下 : 


<%@ page language-"java" contentType-"text/html; charset=UTF-8" 
pageEncoding="UTF-8"%> 

<!DOCTYPE html» 

<html> 

<head> 

<meta http-equiv="Content-Type" content="text/html; charset=UTF-8"> 

<meta http-equiv="refresh" content="5;url=index.jsp"> 

<title>Error Page</title> 

</head> 

<body> 
<h3> 没 有 搜 到 数据 !5 秒 后 跳 转 至 搜索 页 !</h3> 

</body> 

</html> 


在 编辑 resultjsp 页 面 之 前 ， 首 先 在 lucene.file.search.service 目录 下 新 建 一 个 用 于 去 除 
HTML 标签 的 正则 表达 式 类 RegexHtmljava，delHtmlTag() 方 法 用 于 去 除 字 符 串 中 的 HTML 标 
签 ， 代 码 如 下 : 


import java.util.regex.Matcher; 


import java.util.regex.Pattern; 
public class RegexHtml { 
public String delHtmlTag(String line) { 
String regEx html = "<[*>]+>"; 
// 创建 Pattern WR 
Pattern r = Pattern.compile(regEx html); 
// 创建 matcher 对 象 


Matcher m = r.matcher (line); 
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line = m.replaceAll( 


return line; 


H 


用 户 搜索 到 文档 以 后 ， 添 加 一 个 文件 下 载 功 能 ， 这 样 用 户 就 可 以 把 文件 下 载 到 本 地 了 。 
在 lucene.file.search.controller 包 下 新 建 一 个 FileDownloadServlet.java， 代 码 如 下 : 


Public class FileDownloadServlet extends HttpServlet { 
Private static final long serialVersionUID = 1L; 
Private static final String CONTENT TYPE = "text/html; charset=GBK"; 
public FileDownloadServlet() { 
super (); 
} 
protected void doGet (HttpServletRequest request, HttpServletResponse 
response) throws ServletException, IOException { 
response.getWriter().append("Served at:") 
- append (request .getContextPath ()); 
response.reset (); 
response.setContentType (CONTENT TYPE); 
String filename - new String(request.getParameter ("filename") 
-getBytes ("iso-8859-1"), "UTF-8"); 
System.out.println (filename); 
System.out .println(" 文 件 路 径 :" + request.getServletContext () 
.getRealPath("/files") + "/" + filename) ; 
File file = new File (request.getServletContext (). 
getRealPath("/files") + "/" + filename); 
System.out.println(file.getPath()); 
// 设置 response 的 编码 方式 
response.setContentType ("application/octet-stream"); 
// 写 明 要 下 载 的 文件 的 大 小 
response.setContentLength((int) file.length()); 
// 解决 中 文 乱码 ,向 客户 端 发 送 返回 页 面 的 头 信息 
// 1.Content-disposition 是 MIME 协议 的 扩展 
// 2.attachment --- 作为 附件 下 载 
// 3. 在 客户 端 将 会 弹出 下 载 框 
// 4. 这 个 是 文件 下 载 的 关键 代码 
response.setHeader ("Content-Disposition","attachment; 
filename="+ new String (filename.getBytes ("UTF-8") ,"ISO8859-1") ); 
// 读 出 文件 到 i/o 流 
FileInputStream fis = new FileInputStream(file) ; 
BufferedInputStream buff = new BufferedInputStream (fis); 
byte[] b = new byte[1024];// 相当 于 我 们 的 缓存 
int k = 0;// 该 值 用 于 计算 当前 实际 下 载 了 多 少 字 节 
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// 从 response 对 象 中 得 到 输出 流 , 准 备 下 载 
OutputStream myout = response.getOutputStream(); 
// 开始 循环 下 载 
while (-1 != (k = fis.read(b, 0, b.length))) { 
// 将 b 中 的 数据 写 到 客户 端的 内 存 
myout.write(b, 0, k); 
} 
// 将 写 入 到 客户 端的 内 存 的 数据 ,刷新 到 磁盘 
myout.flush(); 
fis.close(); 
buff.close(); 
H 
protected void doPost(HttpServletRequest request, 
HttpServletResponse response)throws ServletException, IOException 


doGet (request, response); 


) 
web.xml 新 增 FileDownloadServlet 的 配置 信息 : 


<servlet> 
<description></description> 
<display-name>FileDownloadServlet</display-name> 
<servlet-name>FileDownloadServlet</servlet-name> 
<servlet-class> 

lucene. file.search.controller.FileDownloadServlet 

</servlet-class> 

</servlet> 

<servlet-mapping> 
<servlet-name>FileDownloadServlet</servlet-name> 
<url-pattern>/FileDownloadServlet</url-pattern> 

</servlet-mapping> 


在 resultjsp 页 面 中 ,通过 request 的 getAttribute() 方 法 接收 SearchFileServlet 中 的 查询 结果 ， 
遍历 到 页 面 ， 见 代码 清单 3-5。 


代码 清单 3-5 


<%@ page language="java" contentType="text/html; charset=UTF-8" 


pageEncoding-"UTF-8" 
import-"java.util.ArrayList" 
import-"lucene.file.search.model.FileModel" 


ava.util.regex.*" 


ucene.file.search.service.RegexHtml" 
import="java.util.Iterator"%> 


$33 Lucene 文件 检索 项 目 实战 83 


<% 
String path = request.getContextPath () ;// 获 取 工 程 根 目录 
String basePath = request.getScheme() + "://" + request. 
getServerName()+ ":" + request.getServerPort()* path + 
String regEx_html = "<[*>]+>"; 
// 创建 Pattern WR 
Pattern r = Pattern.compile(regEx html); 
// 现在 创建 matcher WR 
RegexHtml regexHtml = new RegexHtml (); 
ArrayList<FileModel> hitsList = (ArrayList<FileModel>) 
request.getAttribute ("hitsList") ; 
String queryback = (String) request.getAttribute ("queryback"); 
$> 
<!DOCTYPE html> 
<html> 
<head> 


<meta http-equiv="pragma" content="no-cache"> 
<meta http-equiv="cache-control" content="no-cache"> 
<meta http-equiv="expires" content="0"> 
«meta http-equiv="keywords" content="keyword1, keyword2, keyword3"> 
<meta http-equiv-"description" content="This is my page"> 
<meta http-equiv-"Content-Type" content="text/html; charset=UTF-8"> 
<base href="<%=basePath%>"> 
<title> 搜 索 结果 </title> 
<link type="text/css" rel="stylesheet" href="css/result.css"> 
</head> 
<body> 
<div class="searchbox"> 
<div class="logo"> 
<a href="index.jsp"><img alt=" 文 件 检索 " src-"images/ logo.png"></a> 
</div> 
<div class="searchform"> 
<form action="SearchFile" method="get"> 
<input type="text" name="query" value= "<%=queryback%>"> 
<input type="submit" value=" 搜 索 "> 
</form> 
</div> 
</div> 
<div class="result"> 
<h4> 
共 搜 到 <span style="color: red; font-weight: bold;"> 
<%=hitsList.size() $></span>xAR 
</h4> 
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<% 
if (hitsList.size() > 0) { 
Iterator<FileModel> iter = hitsList.iterator(); 
FileModel fm; 
while (iter.hasNext()) { 
fm = iter.next(); 
$> 


<div class="item"> 
<div class="itemtop"> 
<h4> 
<img alt="pdf" src="images/<%=fm.getTitle() 
-split("\\.") [1]%>.png" class="doclogo"> 
<%=fm.getTitle().split("\\.") [0]%> 
</h4> 
<h3> 
<a href="FileDownloadServlet?filename= 
«$-regexHtml.delHtmlTag (fm.getTitle() )%>"> 单 击 下 载 </a> 
</h3> 
</div> 
<div class="itembuttom"> 
«p»«$-fm.getContent().length() > 210 ? 
fm.getContent().substring(0, 210): 
fm.getContent () %>...</p> 


</div> 
<hr class="itemline"> 
</div> 
«t 
) 
b 
$> 
</div> 


<div class="footer"> 
<p> (Elasticsearch 入 门 与 实战 》 之 Lucene 项 目 案例 </P> 
<p>&copy; 2016 清华 大 学 出 版 社 </p> 
</div> 
</body> 
</html> 


搜索 结果 页 面 效 果 如 图 3-13 所 示 。 
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院 自 动 化 研究 所 与 CSON 共同 承办 的 2016 中 国人 工 智能 大 会 (CCAl 201 
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图 3-13 “文件 检索 查询 结果 页 面 
3.9 本 章 小 结 


本 章 通过 Lucene 文件 检索 项 目 ， 整 合 了 Lucene, Java Web, HTML, CSS, HARARE 
够 理 清 思路 ， 步 步 为 营 ， 在 实现 这 个 小 项 目的 过 程 中 锻炼 动手 能 力 ， 提 高 编程 技巧 ， 加 深 对 
Lucene 的 理解 。 


从 Lucene 到 Elasticsearch 


本 章 学 习 要 点 : 

*k Elasticsearch 与 Lucene 的 关系 *k Elasticsearch 和 关系 型 数据 库 对 比 
% Elasticsearch 架构 k 安装 和 配置 Elasticsearch 

党 Elasticsearch 的 优点 k 安装 和 配置 IK 分 词 插件 

*k Elasticsearch 应 用 案例 * 安装 和 配置 Kibana 


* Elasticsearch 的 核心 概念 


4.1 Elasticsearch 概述 


4.1.1 诞生 过 程 


Elasticsearch 是 一 个 基于 Lucene 的 搜索 服务 器 ， 采 用 Java 语言 编写 ， 使 用 Lucene 构建 索 
引 、 提 供 搜索 功能 ， 并 作为 Apache 许可 条 款 下 的 开放 源码 发 布 ， 是 当前 流行 的 企业 级 搜索 引 
擎 。 我 们 知道 , Lucene 提供 的 功能 已 经 很 强大 了 , 但 是 Lucene 只 是 一 个 由 Java 语言 编写 的 库 ， 
对 不 使 用 Java 语言 的 开发 人 员 并 不 友好 ，Elasticsearch 在 Lucene 的 基础 上 做 了 更 多 的 改进 ， 
提供 了 多 种 语言 接口 。 如 图 41 所 示 ，Lucene 之 于 Elasticsearch 堪 比 发 动机 之 于 汽车 ， 
Elasticsearch 底层 使 用 的 仍然 是 Lucene 的 API，Lucene 专注 于 底层 搜索 的 建设 ，Elasticsearch 
专注 于 企业 应 用 。 

Elasticsearch 的 目标 是 让 全 文 搜索 变 得 简单 , 开发 者 可 以 通过 简单 明了 的 RESTFul API 轻 
松 地 实现 搜索 功能 ， 而 不 必 去 面 对 Lucene 的 复杂 性 。 我 们 可 以 通过 下 面 一 段 阅 读 材 料 了 解 
Elasticsearch 的 诞生 过 程 ， 以 便 更 好 地 认识 和 定位 Elasticsearch. 


$43 M Lucene 到 Elasticsearch 87 


4-1 Elasticsearch 和 Lucene 之 间 的 关系 


待业 工程 师 Shay Banon 想 为 在 伦敦 学 习 做 一 名 司 师 的 麦子 开发 一 个 方便 搜索 菜谱 的 应 用 
而 接触 到 Lucene, Shay 在 使 用 Lucene 构建 搜索 的 过 程 中 遇 到 很 多 问题 , 包括 大 量 重复 性 的 工 
TE, Shay 便 在 Lucene 的 基础 上 不 断 进行 抽象 和 优化 以 便 Java 程序 嵌入 搜索 更 加 方便 , 经 过 一 
段 时 间 的 打磨 诞生 了 他 的 第 一 个 开源 作品 “Compass〈 中 文 为 指南 针 的 意思 ) ”。 之 后 ，Shay 
找到 了 一 份 面 对 高 性 能 分 布 式 开发 环境 的 新 工作 ， 在 工作 中 他 渐渐 发 现 越 来 越 需要 一 个 易 用 
的 、 高 性 能 、 实 时 、 分 布 式 搜索 服务 ，Shay 在 思考 第 三 版 的 Compass 时 候 意识 到 非常 有 必要 
重 构 Compass 的 大 部 分 功能 来 实现 “稳定 搜索 解决 方案 ”的 目标 ， 于 是 Compass 从 一 个 库 被 
打造 成 一 个 具有 分 布 式 功能 、 基 于 JSON 和 HTTP 接口 、 适 用 非 Java 语言 的 独立 Server。2010 
年 2 月 ，Shay Banon 发 布 了 Elasticsearch 的 第 一 个 版 本 。 

如 今 Elasticsearch 已 经 作为 一 家 公司 (Elastic 公司 ) 进行 运作 ， 定 位 为 数据 搜索 和 分 析 平 
台 ， 并 在 2014 年 6 月 获得 7000 万 美元 的 融资 ， 累 积 融资 过 亿美 元 。Shay Banon 在 接受 访谈 
时 称 ,创建 公司 要 做 的 第 一 件 事 就 是 确保 所 有 流行 的 语言 和 框架 都 有 正式 的 客户 端 驱动 , 现在 
Elasticsearch 已 经 可 以 与 Java、Ruby、Python、PHP、Perl、.NET 等 多 种 客户 端 集成 。 除 此 之 
外 ，Elasticsearch 也 可 以 与 Hadoop、Spark 等 大 数据 分 析 平 台 进行 集成 ， 功 能 十 分 强大 。 

基于 Elasticsearch 衍生 出 来 了 一 系列 开源 软件 ， 统 称 为 Elastic Stack， 主 要 包括 分 布 式 搜 
索引 擎 Elasticsearch、 日 志 采 集 与 解析 工具 Logstash、 可 视 化 分 析 平 台 Kibana、 数 据 采集 工具 
Beats 家 族 等 。 在 没有 引入 Beats 之 前 ，Elasticsearch、Logstash、Kibana 三 者 简称 ELK Stack, 
是 非常 流行 的 集中 式 日 志 解 决 方案 。Logstash 既 可 以 作为 日 志 搜 集 器 又 能 解析 日 志 ， 但 是 
Logstash 会 消耗 较 多 的 CPU 和 内 存 资源 ， 容 易 造成 服务 器 性 能 下 降 。 后 来 Elastic 公司 推出 了 
Beats 家 族 ， 在 数据 收集 方面 使 用 Beats 取代 Logstash， 解 决 了 Logstash 在 各 服务 器 节点 上 占 
用 系统 资源 高 的 问题 。 相 比 Logstash, Beats 所 占 系统 的 CPU 和 内 存 几乎 可 以 忽略 不 计 ， 另 
外 ，Beats 和 Logstash 之 间 支 持 SSL/TLS 加 密 传 输 以 及 客户 端 和 服务 器 双向 认证 ， 保 证 了 通 
信安 全 。Beats 家 族 的 5 个 成 员 简 介 如 下 : 


e Filebeat 轻 量 级 的 日 志 采 集 器 ， 可 用 于 收集 文件 数据 。 
© Metricbeat 5.0 版 本 之 前 名 为 Topbeat， 搜 集 系统 、 进 程 和 文件 系统 级 别 的 CPU 和 内 存 使 
情况 等 数据 。 
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@ Packetbeat 


收集 网 络 流 数据 ， 可 以 实时 监控 系统 应 用 和 服务 ， 可 以 将 延迟 时 间 、 错 误 、 响 应 


时 间 、SLA 性 能 等 信息 发 送 到 Logstash 2k Elasticsearch. 


Winlogbeat 


搜集 Windows 事件 日 志 数据 。 


Heartbeat ”监控 服务 器 运行 状态 。 
为 了 避免 版 本 混乱 ， 从 5.0 版 本 开始 ，Elastic 公司 将 各 组 件 的 版 本 号 统一 。 使 用 时 ， 各 组 件 


版 本 号 应 该 一 致 ，E 


lastic Stack 的 版 本 号 为 X.Y.Z 的 形式 ， 例 如 5.2.3。 其 中 ， 各 组 件 的 Z 可 以 不 


相同 ， 但 X、Y 必须 一 致 。 
4.1.2 流行 度 分 析 


DB-Engines (È P}: http://db-engines.com/) 是 一 家 收集 和 统计 数据 库 管 理 系统 信息 的 机 
构 ， 不 仅 包含 传统 关系 型 数据 库 ， 对 NoSQL 领域 也 非常 关注 。 在 该 网 站 可 以 查看 各 种 DBMS 
的 特点 、 流 行程 度 等 信息 ， 同 时 也 可 以 选择 其 他 DBMS 做 对 比 。DB-Engines Ranking 是 根据 
DBMS 的 流行 程度 做 的 排名 ， 根 据 统 计 信 息 每 月 更 新 一 次 。 如 图 4-2 所 示 是 2017 年 8 月 份 搜 
索引 擎 类 的 流行 度 排名 ，Elasticsearch 排名 第 一 ， 流 行 度 超过 了 Solr。 如 图 4-3 所 示 是 各 搜索 


引擎 流行 度 趋势 图 ， 


Elasticsearch 一 直 保持 稳健 的 增长 趋势 。 


16 systems in ranking, August 2017 
Rank Score 
Jui Aug DBMS Database Model Aug Jul Aug 
2017 2017 2016 2017 2017 2016 
1 1. 1 Blasticsearch (3 Search engine. 117.65 +1.67 «2516 
2. X X Sol Search engine. 66.96 +0.93 «118 
3. 3 3 Splunk Search engine 61.46 +1.17 +12.56 
4, 4. 4. MarkLogic  Multi-mode! B 12,50 +0.07 +2.46 
5. * 5 Sphinx Search engine 615 -0.28 -L87 
6. 6 8 Microsoft Azure Search Search engine 3.29 +0.02 «159 
7. 7. 6. Google Search Appliance Search engine 2.89 -008 -0.16 
8, 8 Algolia Search engine. 2.61 +0.11 
9, 9 47. Amazon CloudSearch Search engine 2.30 001 -0.03 
10. 10. p11. CrateDB Multi-model 回 0.85 005 +0.53 
11. 11. 9. Xepian Search engine 0.58 -0.01 «01i 
12, 12.413 SearchBlox Search engine 0.26 -0.02 «014 
13. 小 14. p15. Exorbyte Search engine 0.15 -0.02 +0.15 
14. #13. 410. Indica Search engine 0.09 -0.09 -0.24 
15. ^16. 15. searchxml Multi-model E 0.03 +0.03 «003 
16. 415. 414. DBSight Search engine. 0.02 001 «001 


图 42 2017 E8 月 份 搜索 引擎 排名 


DB-Engines Ranking of Search Engines 


图 43 2017 年 8 月 搜索 引擎 流行 度 趋势 图 
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4.1.3 ”架构 解读 
如 图 4-4 所 示 是 Elasticsearch 的 整体 架构 ， 下 面 由 下 往 上 逐 层 介绍 。 


RESTful Style API Java(Netty) 


‘Transport 


Thrift Memcached Http x 


Discovery Scripting S 
Zen [5 mvel || is] [python] [ Ete Plugins 
Index Module | Search Module Mapping | River 
Distributed Lucene Directory 
Gateway 


Local FileSystem [ Shared FileSystem] Hadoop HOFS | ‘Amazon S3 


图 4-4 Elasticsearch 整体 架构 


Gateway 是 Elasticsearch 用 来 存储 索引 的 文件 系统 ， 支 持 多 种 文件 类 型 ，Local FileSystem 
是 存储 在 本 地 的 文件 系统 ，Shared FileSystem 是 共享 存储 ， 也 可 以 使 用 Hadoop 的 HDFS 分 布 
式 存储 ， 也 可 以 存储 在 Amazon S3 云 服 务 上 。 

Gateway 的 上 层 是 一 个 分 布 式 的 Lucene 框架 ，Elasticsearch 的 底层 API 是 由 Lucene 提供 
的 ， 每 一 个 Elasticsearch 节点 上 都 有 一 个 Lucene 引擎 的 支持 。 

Lucene 之 上 是 Elasticsearch 的 模块 ， 包 括 索引 模块 、 搜 索 模 块 、 映 射 解析 模块 等 。River 
相当 于 第 三 方 插件 ， 用 来 导入 第 三 方 数 据 源 ， 在 2.X 之 后 已 经 不 再 使 用 。 

Elasticsearch 模块 之 上 是 Discovery、Scripting 和 第 三 方 插件 。Discovery 是 Elasticsearch 
的 节点 发 现 模块 , 不 同 机 器 上 的 Elasticsearch 节点 要 组 成 集群 需要 进行 消息 通信 ， 集 群 内 部 需 
要 选举 master 节点 ， 这 些 工 作 都 是 由 Discovery 模块 完成 的 。Scripting 用 来 支持 JavaScript. 
Python 等 多 种 语言 ， 可 以 在 查询 语句 中 嵌入 ， 使 用 Script 语句 性 能 稍 低 。Elasticsearch 也 支持 
多 种 第 三 方 插件 。 

再 上 层 是 Elasticsearch 的 传输 模块 和 JMX。 传 输 模块 支持 Thrift. Memcached. HTTP, 
默认 使 用 HTTP 传输 。JMX 是 Java 的 管理 框架 ， 用 来 管理 Elasticsearch 应 用 。 

最 上 层 是 Elasticsearch 提供 给 用 户 的 接口 ， 可 以 通过 RESTful API 和 Elasticsearch 集群 进 
行 交 互 。 


414 优点 


如 图 4-5 所 示 来 源 于 百度 大 数据 部 2015 年 做 的 题 为 《百度 Elasticsearch 实践 》 的 分 享 ， 
介绍 了 Elasticsearch 的 特点 和 优点 ， 分 析 如 下 。 
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图 4-5 图 片 来 源 于 《百度 Elasticsearch 实践 》 


分 布 式 : Elasticsearch 横向 扩展 非常 灵活 ， 当 数据 规模 比较 小 的 时 候 可 以 使 用 小 规模 的 集 
群 。 随 着 数据 的 增长 ， 需 要 更 大 的 容量 和 更 高 的 性 能 ， 此 时 只 需 增 加 更 多 的 节点 ， 

Elasticsearch 的 自动 发 现 机 制 会 识别 新 增 的 节点 并 重新 平衡 分 配 数 据 。 

全 文 检索 : Apache Lucene 是 一 个 用 Java 编写 的 高 性 能 的 功能 齐全 的 信息 检索 库 ， 

Elasticsearch 在 后 台 使 用 Lucene 来 提供 最 强大 的 全 文 检索 , 提供 任何 开源 产品 的 能 力 。 自 带 
多 语言 支持 、 强 大 的 查询 语言 、 地 理 位 置 支持 、 上 下 文 感知 的 建议 、 自 动 完 成 和 搜索 片段 。 
近 实 时 搜索 和 分 析 : 数据 从 进入 Elasticsearch, 可 达到 近 实 时 搜索 。 除了 搜索 ,Elasticsearch 
也 可 以 进行 聚合 分 析 操 作 。 

高 可 用 : 高 可 用 主要 体现 在 容错 机 制 上 ，Elasticsearch 集群 会 自动 发 现 新 的 或 失败 的 节点 ， 


重组 和 重新 平衡 数据 ， 确 保 数据 是 安全 的 和 可 访问 的 。 


e 模式 自由 Elasticsearch 的 动态 mapping 机 制 可 以 自动 检测 数据 的 结构 和 类 型 ， 创 建 索引 ， 


并 使 数据 可 搜索 。 


e RESTful API: Elasticsearch 是 API 驱动 。 几 乎 任何 操作 都 可 以 用 一 个 简单 的 RESTful API 
使 用 JSON 基于 HTTP 请 求 来 实现 ， 客 户 端 也 可 使 用 多 种 编程 语言 。 


415 ”应 用 场景 
Elaticsearch 应 用 场景 
1. 站 内 搜索 


可 分 为 以 下 几 类 。 


Elaticsearch 在 站 内 搜索 中 应 用 十 分 广泛 ， 大 部 分 网 站 尤其 是 网 页 信息 量 较 大 的 网 站 ， 都 
会 有 站 内 全 文 检索 这 一 功能 , 目的 是 为 了 方便 用 户 快速 检索 信息 。 如 图 4-6 所 示 是 一 个 图 书馆 


站 内 搜索 的 例子 。 
2. NoSQL 数据 库 
Elasticsearch 7E i * t 


3. 日 志 分 析 


能 上 优 于 MongoDB， 同 时 也 支持 地 理 位 置 查询 。 


日 志 分 析 由 实时 日 志 分 析 平 台 ELK (ELK 由 Elasticsearch、Logstash 和 Kiabana 三 个 开源 


工具 组 成 ) 完成 ， 能 够 对 


日 志 进行 集中 的 收集 、 存 储 、 搜 索 、 分 析 、 监 控 以 及 可 视 化 。 
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46 图 书馆 站 内 搜索 例子 


国内 外 使 用 Elasticsearch 的 知名 企业 有 : Facebook. Wikipedia, GitHub, Quora, Facebook. 
Sony、Mozilla、Adobe、NETFLIX、SoundCloud、Foursquare、LinkedIn、Ubnt、 百 度 、 新 浪 等 。 


o ”维基 百科 使 用 Elasticsearch 来 进行 全 文 搜索 并 高 亮 显示 关键 词 , 以 及 提供 search-as-you-type、 
did-you-mean 等 搜索 建议 功能 。 

e 英国 卫 报 使 用 Elasticsearch 来 处 理 访客 日 志 ， 以 便 能 将 公众 对 不 同文 章 的 反应 实时 地 反馈 
给 各 位 编辑 。 

GitHub 使 用 Elasticsearch 来 检索 超过 1300 亿 行 代码 。 
SoundCloud 是 一 家 德国 网 站 ， 提 供 音乐 分 享 社区 服务 ， 使 用 Elasticsearch 来 为 1.8 亿 用 户 
提供 即时 精准 的 音乐 搜索 服务 。 

e Mozilla 公司 以 火狐 著名 ， 它 目前 使 用 WarOnOrange 这 个 项 目 来 进行 单元 或 功能 测试 ， 测 
试 的 结果 以 JSON 的 方式 索引 到 Elasticsearch 中 ， 开 发 人 员 可 以 非常 方便 地 查找 bug。 
Socorro 是 Mozila 公司 的 程序 崩 江 报告 系统 ， 一 有 错误 信息 就 插入 到 Hbase 和 Postgres 
中 ， 然 后 从 Hbase 中 读 取 数 据 索 引 到 Elasticsearch P, 方便 查找 。 

Sony 公司 使 用 Elasticsearch 作为 信息 搜索 引擎 。 
百度 自 2013 年 开始 使 用 Elasticsearch, Hri Casio、 云 分 析 、 网 盟 、 预 测 、 文 库 、 直 达 号 、 
百度 钱包 、 百 度 糯米 等 多 个 业务 线 ， 使 用 上 百 台 服务 器 每 天 处 理 TB 量 级 的 数据 。 


如 图 4-7 所 示 来 源 于 2016 年 第 五 届 Elasticsearch 开发 者 大 会 上 百度 大 数据 部 做 的 题 为 ( 百 
度 对 Elasticsearch 的 优化 改进 》 的 分 享 ， 介 绍 了 Elasticsearch 在 百度 的 使 用 情况 。 
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Baidu-ES 规模 
= 
。 覆盖 百度 内 部 50+ 业 务 线 


一 包括 凤 桌 、 糯 米 、 人 金融 、 钱 包 、 网 盟 、 手 百 、 地 图 、 贴 吧 、 
移动 、 风 控 、 预 测 、 云 分 析 、 用 户 画 像 等 


* 共 部 署 500+ 机 器 ， 启 动 800+ES 节 点 

* 单 集群 最 大 100 台 机 器 ， 启 动 200 个 ES 节点 

* 单 集群 最 大 每 天 导入 60TB+， 总 共 每 天 100TB+ 

* ES 云 服务 多 个 付费 用 户 ， 如 大 秦 铁 路 、 光 明 网 等 


Balter 


图 4-7 图 片 来 源 于 《百度 对 Elasticsearch 的 优化 改进 》 
更 多 的 用 户 案例 可 以 到 Elasticsearch 官网 查看 : https://www.elastic.co/use-cases o 
44.6 ”核心 概念 


下 面 介绍 Elasticsearch 的 一 些 核心 概念 ， 包 括 集群 、 节 点 、 索 引 、 类 型 、 文档 、 分 片 和 副本 。 
1. 集群 


一 个 或 多 个 安装 Elasticsearch 的 服务 器 节点 组 织 在 一 起 就 是 集群 , 它们 共同 持 有 你 整个 的 
数据 ， 并 一 起 提供 索引 和 搜索 功能 。 一 个 集群 由 一 个 唯一 的 名 字 标 识 ， 称 为 cluster name， 集 
群 名 称 默认 是 “elasticsearch”。 集 群 名 称 非常 重要 ， 就 像 一 个 组 织 的 名 称 ， 具 有 相同 集群 名 
称 的 节点 才 会 组 成 一 个 集群 。 集 群 名 称 可 以 在 配置 文件 中 指定 。 


2. 节点 


一 个 节点 是 你 集群 中 的 一 个 服务 器 ， 作 为 集群 的 一 部 分 ， 它 存储 你 的 数据 ， 参 与 集群 的 
索引 和 搜索 功能 。 

一 个 节点 可 以 通过 配置 集群 名 称 的 方式 来 加 入 一 个 指定 的 集群 。 默 认 情况 下 ， 每 个 节点 
都 会 被 安排 加 入 到 一 个 集群 名 称 为 “elasticsearch” 的 集群 中 ， 这 意味 着 如 果 你 在 你 的 网 络 中 
启动 了 若干 个 节点 ， 并 假定 它们 能 够 相互 发 现 彼此 ， 它 们 将 会 自动 地 形成 并 加 入 到 一 个 叫做 
“elasticsearch ”的 集群 中 。 但 是 有 的 时 候 这 种 机 制 并 不 可 靠 ， 会 发 生 脑 裂 现 象 ， 往 往 不 如 在 
每 一 个 节点 上 配置 节点 的 名 字 在 启动 时 进行 被 动 发 现 来 的 安全 稳定 。 


3. 索引 


一 个 索引 就 是 一 个 拥有 几 分 相似 特征 的 文档 的 集合 ， 索 引 的 数据 结构 仍然 是 倒 排 索引 。 
比如 说 ， 你 可 以 有 一 个 客户 数据 的 索引 ， 另 一 个 产品 目录 的 索引 ， 还 有 一 个 订单 数据 的 索引 。 
一 个 索引 由 一 个 名 字 来 标识 (必须 全 部 是 小 写字 母 的 ) ， 并 且 当 我 们 要 对 这 个 索引 中 的 文档 进 
行 索引 、 搜 索 、 更 新 和 删除 的 时 候 ， 都 要 使 用 到 这 个 名 字 。 在 一 个 集群 中 ， 可 以 定义 任意 多 的 
索引 。 索 引 做 动词 来 讲 的 时 候 表 示 索 引 数据 和 对 数据 进行 索引 操作 。 
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4. 类 型 


在 一 个 索引 中 ， 你 可 以 定义 一 种 或 多 种 类 型 。 一 个 类 型 是 你 的 索引 的 一 个 逻辑 上 的 分 类 
或 分 区 ， 其 语义 完全 由 你 来 定 。 通 常 ， 会 为 具有 一 组 共同 字段 的 文档 定义 一 个 类 型 。 


5. 文档 


一 个 文档 是 一 个 可 被 索引 的 基础 信息 单元 。 比 如 ， 你 可 以 拥有 某 一 个 客户 的 文档 ， 某 一 
个 产品 的 一 个 文档 。 当 然 ， 也 可 以 拥有 某 个 订单 的 一 个 文档 。 文 档 都 是 JSON 格式 。 


6. 分 片 


一 个 索引 可 以 存储 超出 单个 节点 硬件 限制 的 大 量 数据 。 比 如 ， 一 个 具有 10 亿 文档 的 索引 
占据 ITB 的 磁盘 空间 ， 而 任 一 节点 都 没有 这 样 大 的 磁盘 空间 ， 或 者 单个 节点 处 理 搜索 请 求 ， 
响应 太 慢 。 为 了 解决 这 个 问题 ，Elasticsearch 提供 了 将 索引 划分 成 多 份 的 能 力 ， 这 些 份 就 叫 作 
分 片 。 当 你 创建 一 个 索引 的 时 候 ， 可 以 指定 想 要 的 分 片 的 数量 ,每 个 分 片 本 身 也 是 一 个 功能 完 
善 并 且 独 立 的 “索引 ”， 这 个 “索引 ”可 以 被 放置 到 集群 中 的 任何 节点 上 。 

分 片 之 所 以 重要 ， 主 要 有 以 下 两 方面 的 原因 : 


(1) 允许 你 水 平分 割 /扩展 你 的 内 容 容 量 。 

(2) 允许 你 在 分 片 〈 潜 在 地 ， 位 于 多 个 节点 上 ) 上 进行 分 布 式 的 、 并 行 的 操作 ， 进 而 提 
高 性 能 和 吞吐 量 , 至 于 一 个 分 片 怎样 分 布 , 它 的 文档 怎样 聚合 回 搜索 请 求 , 完全 由 Elasticsearch 
管理 ， 对 于 用 户 来 说 ， 这 些 都 是 透明 的 。 


7. 副本 


在 一 个 网 络 / 云 的 环境 里 ， 失 败 随 时 都 可 能 发 生 ， 在 某 个 分 片 /节点 不 知 怎 么 的 就 处 于 离线 
状态 ， 或 者 由 于 某 种 原因 消失 了 ,这 种 情况 下 ， 有 一 个 故障 转移 机 制 非常 有 用 ， 并 且 也 是 强烈 
推荐 的 。 为 此 ，Elasticsearch 允许 你 创建 分 片 的 一 份 或 多 份 拷贝 ， 这 些 拷贝 叫 作 复制 分 片 ， 或 
者 直接 叫 副本 。 

副本 之 所 以 重要 ， 有 以 下 两 个 主要 原因 : 


CD 在 分 片 /节点 失败 的 情况 下 ,保证 高 可 用 性 。 因 为 这 个 原因 ， 复制 分 片 不 与 主 分 片 置 
于 同一 节点 上 ， 这 一 点 非常 重要 。 
(2) 扩展 你 的 搜索 量 /吞吐 量 ， 因 为 搜索 可 以 在 所 有 的 副本 上 并 行 运行 。 


总 之 ， 每 个 索引 可 以 被 分 成 多 个 分 片 。 一 个 索引 可 以 有 一 至 多 个 副本 。 一 旦 有 了 副本 ， 
每 个 索引 就 有 了 主 分 片 〈 作 为 复制 源 的 原来 的 分 片 》 和 副本 分 片 〈 主 分 片 的 拷贝 ) 之 别 。 分 片 
和 副本 的 数量 可 以 在 索引 创建 的 时 候 指 定 。 在 索引 创建 之 后 , 可 以 在 任何 时 候 动态 地 改变 副本 
的 数量 ， 但 是 事后 不 能 改变 分 片 的 数量 。 
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4.1.7 “对比 RDMS 


Elasticsearch 可 以 看 成 一 个 数据 库 ， 只 是 和 关系 型 数据 库 比 起 来 数据 格式 和 功能 不 一 样 而 
已 。 如 果 是 初次 接触 Elasticsearch， 对 一 些 概念 比较 陌生 的 话 ， 可 以 参考 表 4-1 对 比 RDMS 理 
解 Elasticsearch 的 一 些 术语 。 


表 4-1 Elasticsearch 和 RDMS 对 比 


RDMS Elasticsearch 
数据 库 (database) 索引 (index) 

# (table) 类 型 (type) 

行 (row) 文档 (document) 
列 (column) 字段 (field) 

表 结构 (Schema) Wý} (Mapping) 
索引 全 文 索引 

SQL 查询 DSL 
SELECT* from tablename GET http://...... 
UPDATE table SET PUT http://...... 
DELETE DELETE http://...... 


请 注意 ， 进 入 Elasticsearch 的 世界 以 后 ， 我 们 讲 到 的 某 个 索引 下 的 某 个 类 型 的 某 个 文档 ， 
和 关系 型 数据 库 讲 某 个 数据 库 中 的 某 张 表 的 某 条 记录 是 等 价 的 。 


41.8 文档 结构 


了 解 ISON 这 种 数据 格式 的 结构 和 特点 非常 有 必要 ， 因 为 文档 是 Elasticsearch 中 的 基本 站 
位 ，Elasticsearch 中 的 文档 又 都 是 用 ISON 来 表示 的 ， 以 后 我 们 还 要 经 常 和 ISON 打交道 。 寿 
开始 Elasticsearch 学 习 之 前 先 来 学 习 一 下 JSON, Xt ISON 已 经 很 熟悉 的 读者 可 以 跳 过 本 节 。 

JSON (JavaScript Object Notation) 是 一 种 轻 量 级 的 数据 交换 格式 ， 易 于 人 阅读 和 编写 ， 
同时 也 易于 机 器 解析 和 生成 。 它 基于 JavaScript Programming Language, 是 Standard ECMA-262 
3rd Edition-December 1999 的 一 个 子 集 。JSON 采用 完全 独立 于 语言 的 文本 格式 ， 但 是 也 使 用 
TRUF C 语言 家 族 的 习惯 (包括 C. CH, CH Java. JavaScript, Perl, Python 等 ) 。JSON 
使 用 JavaScript 语法 来 描述 数据 对 象 ， 但 是 JSON 仍然 独立 于 语言 和 平台 。JSON 解析 器 和 
JSON 库 支 持 许多 不 同 的 编程 语言 ， 这 些 特性 使 JSON 成 为 理想 的 数据 交换 语言 。 

JSON 主要 有 以 下 两 种 结构 : 


e “key/value” 键 值 对 结构 。 在 不 同 的 语言 中 ， 它 被 理解 为 对 象 (object) 、 纪 录 (record) ~ 
结构 (struct) ~ H (dictionary) 、 哈 希 表 (hashtable) 、 有 键 列表 (keyed list) 或 者 关 
联 数组 (associative array) 。 键 / 值 对 包括 字段 名 称 〈 在 双 引 号 中 ) ， 后 面 写 一 个 冒号 ， 然 
后 是 值 ， 比 如 : "name": "Tom", ^ffrT JavaScript 语句 : name-"Tom". 

e 数组 结构 。 也 称 为 值 的 有 序列 表 (An ordered list of values) 。 在 大 部 分 语言 中 都 被 理解 为 
数组 (array) 。 


ak 


Ht 
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JSON 值 的 类 型 可 以 是 数字 〈 整 型 或 浮 点 型 ) 、 字 符 串 〈 在 双 引 号 之 内 ) ~ MRE 〈true 
IÈ false) 、 数 组 〈 在 方 括号 之 内 ) 、 对 象 在 花 括号 之 内 ) ~ null 
下 面 是 JSON 对 象 的 一 个 例子 : 
t 
"name"; "JSON Hi", 
"url": "http://www.json.org.cn", 
"page": 88, 
"isNonProfit": true, 
"address": ( 
"street": "浙大 路 38 号."， 
"city": "浙江 杭州 "， 
"country": "中 国 " 
), 
"links": [ 
{ 
"name": "Google", 
"url": "http://www.google.com" 


"name": "Baidu", 
"url": "http://www.baidu.com" 


) 

JSON 对 象 在 花 括号 中 书写 , 对 象 可 以 包含 多 个 名 称 / 值 对 , 在 上 面 的 例子 中 , 对 象 “name” 
“url”“page”“isNonProfit” 的 值 都 是 简单 类 型 ， 对 象 “address” 包 含 3 PREHR, IR 
“links” 包 含 2 个 对 象 数组 。 

和 另 一 种 数据 交换 常用 文件 格式 XML HE, JSON 有 诸多 优点 。 首 先 ISON 数据 格式 比 
较 简单 ， 易 于 读 写 ， 格 式 都 是 压缩 的 ， 占 用 带宽 小 ， 而 XML 文件 庞大 ， 文 件 格式 复杂 ， 传 输 
占 带 宽 比 较 大 。 其 次 ， 在 解码 难度 上 ，JSON 更 易于 解析 ，XML 的 解析 得 考虑 父 节 点 和 子 节 
点 ， 让 人 头 氏 眼花， 而 ISON 的 解析 难度 几乎 为 零 。 此 外 ， 服 务 器 端 和 客户 端 都 需要 花费 大 量 
代码 来 解析 XML， 导 致 服务 器 端 和 客户 端 代码 变 得 异常 复杂 且 不 易 维护 ， 而 JSON 格式 则 能 
直接 为 服务 器 端 代码 使 用 ， 大 大 简化 了 服务 器 端 和 客户 端的 代码 开发 量 。 


4.2 安装 Elasticsearch 


Elasticsearch 的 安装 需要 Java 的 支持 ， 强 烈 建议 读者 在 Linux 环境 下 学 习 Elasticsearch, 
Elasticsearch 对 Linux 操作 系统 的 支持 较 好 ， 在 Linux 下 学 习 Elasticsearch 能 减少 不 必要 的 麻 
Hi, 生产 环境 中 Elasticsearch 集群 一 般 也 都 部 署 在 Linux 服务 器 上 。 下 面 从 安装 Java 开始 , 介 
绍 Elasticsearch 的 安装 步骤 。 
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4.2.1 


安装 Java 


ED) FH Java. 
运行 Elasticsearch 5.0 及 以 上 的 版 本 要 求 Java 版 本 不 低 于 1.8， 首 先 到 Oracle 官网 下 载 Java， 访 


问 http://www.oracle.com/technetwork/java/javase/downloads/index.html, £A/5 &d 


之 后 会 跳 转 到 如 


择 相应 的 java LEB, 


里 下 载 jdk-8u144-linux-x64.tar.gz。 


t Java Download 图 标 ， 


4-8 en JDK 下 载 列 表 。 选中 Accept License Agreement， 然 后 根据 不 同 的 系统 选 


Linux ARM 32 Hard Float ABI 
Linux ARM 64 Hard Float ABI 


Java SE Development Kit 8u144 
You must accept the Oracle Binary Ml RUE Agreement for Java SE to download this. 


Thank you for accepting the Oracle ale Binary Code - Sene Agreement for Java SE; you may 


Product / File Description File Size 
77.89 MB 


74.83 MB 


Linux x86 164.65 MB 
Linux x86 179.44 MB 
Linux x64 162.1 MB. 
Linux x64 176.92 MB 
Mac OS X 226.6 MB 
Solaris SPARC 64-bit 139.87 MB 
Solaris SPARC 64-bit 99.18 MB 
Solaris x64 140.51 MB 
Solaris x64 96.99 MB 
Windows x86 190.94 MB. 
Windows x64 197.78 MB 


is software. 


Download 
Sjdk-8u144-linux-arm32-víp-hflt.tar.gz 
Sidk-8u144-linux-arm64-vip-hflt.tar.gz 
Sjdk-8u144-linux-i586.rpm 
Sjdk-8u144-linux-i586.tar.gz 
Sjdk-8u144-linux-x64.rpm 
Sjdk-8u144-linux-x64.tar.gz 
Sjdk-8u144-macosx-x64.dmg 
Sjdk-8u144-solaris-sparcv9.tar.Z 
Sjdk-8u144-solaris-sparcv9.tar.gz 
Sjdk-8u144-solaris-x64.tar.Z 
Sidk-8u144-solaris-x64.tar.gz 
Sjdk-8u144-windows-i586.exe 
Sjdi-8u144-windows-x64.exe 


图 48 Java SE 下 载 列表 


€I WE Java. 
MERRE: 


tar -zxvf jdk-8u144-linux-x64.tar.gz 


sudo mkdir 


/opt/javahome 


移动 java 文件 到 /opt/javahome: 


sudo mv jdk1.8.0 144 /opt/javahome 


C03 设置 环境 变量 。 
编辑 配置 文件 : 


vim /etc/profile 


在 文件 末尾 添加 以 下 内 容 : 


export JAVA_HOME=/opt/javahome/jdk1.8.0_144 


export PATH=$PATH:$JAVA_HOME/bin 
export CLASSPATH-$JAVA HOME/lib 


export CLASSPATH-$CLASSPATH:S$JAVA HOME/jre/lib 


解压 完 以 后 会 生成 文件 夹 jdk1.8.0_144， 然 后 在 /opt 目录 下 (可 自 定义 ) 新 建文 件 夹 : 
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使 刚才 的 配置 生效 ， 执 行 命令 : 


source /etc/profile 


CX304 测试 Java 是 否 安装 成 功 。 


AA 
执行 命令 : 
java -version 


如 果 返 回 如 下 的 Java 版 本 信息 ， 说 明 安装 成 功 。 


java version "1.8.0 144" 
Java(TM) SE Runtime Environment (build 1.8.0 144-b01) 
Java HotSpot(TM) 64-Bit Server VM (build 25.144-b01, mixed mode) 


4.2.2 下载 Elasticsearch 


访问 Elastic 官网 的 软件 下 载 地 址 : https://www.elastic.co/downloads/past-releases, Fý 
面 如 图 4-9 所 示 ， 在 左边 选择 要 下 载 的 软件 名 称 ， 右 边 选择 软件 版 本 。 单 击 Download 按钮 ， 
会 跳 转 到 如 图 4-10 所 示 的 安装 包 下 载 页 ，Linux 系统 下 载 tar 格式 安装 包 。 


We elastic poas cloud Services Customers Learn & 8 Qe 


Past Releases 


Elasticsearch 5.4.0 


图 4-9 Elasticsearch 下 载 


g? elastic Products cloud services Customers Learn 也 Ban 


Elasticsearch 5.4.0 


DEB 
RPM shat 


图 4-10 ”Elasticsearch 下 载 页 面 
4.2.3 启动 Elasticsearch 


下 载 完成 之 后 解压 tar 文件 , 解压 之 后 不 需要 任何 配置 , 切换 到 elasticsearch-5.4.0 目录 下 ， 
打开 终端 执行 启动 命令 : ./bin/elasticsearch， 如 果 一 切 顺利 , 会 收 到 如 图 4-11 所 示 的 输出 信息 。 
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[2017-@8-24T13:35:46,771] [INFO ][o.e. 
[2017-08-24T13:35:46,839][ INFO ][o.e. 
1], net usable.space [25.5qb], net 


n 
e 


total_space [111.8qb] spins? [unknown]. types [hfs] 


1. java 


Bee:elasticsearch-5.4.0 beeS ./bin/elasticsearch 


Node 
-ModeEnvironment 


J D initiatizing ... 
] [Cho4z-e] using [1] dota paths, mounts [[/ C/dev/disk 


[2017-08-24T13:35:46,839] [INFO ][o.e.e.Nodetnvironment J [CHo4z-e] heap size [1.99b], compressed ordinary obje 
ct pointers [true] 
[2017-08-24T13:35:46,908] [INFO J[o.e.n.Node J node name [CHo4z-e] derived from node ID [CHo4z-eNRii 


Fmwyx3v4Nng]; set [node.nome] to override 


[2017-08-24T13:35:46,908]LINFO J[o.e.n.Node J versior[S.4.0], pid[4374], build[780f8c4/2017-04-2BT1 


7:43:27.2292], OS[Wac OS X/10.10.3/x86 64], JW[Oracle Corporation/Java HotSpot(TM) 64-Bit Server VM/1.8.0 121/25 
-121-b13] 

[2017-08-24713:35:47,930][INFO J[o.e.p.PlucinsService J [CHo4z-e] loaded module [aggs-natrix-stats] 
[2017-08-24713:35:47,931]INFO ][o.e.p.PlucinsService J [CHo4z-e] loaded module [ingest-common] 
[2017-08-24713. ,931][INFO J[o.e.p.PlucinsService J [QHosz-e] loaded module [long-expressior] 
[2017-08-24713:35:47,931)[INFO J[o.e.p.PlutinsService J [Cho4z-e] loaded module [long-groovy] 
[2017-08-24713:35:47,931]INFO ][o.e.p.PlucinsService J [Cho4z-e] loaded module [long-mustache] 
[2017-08-24713:35:47,931][INFO J[o.e.p.PlucinsService ~  [CHo4z-e] loaded module [lang-painless] 
[2017-08-24713:35:47,931]INFO ][o.e.p.PlucinsService J [(Ho4z-e] loaded module [percolator] 
[2017-08-24713:35:47,932][INFO ][o.e.p.PlucinsService J [CHo4z-e] loaded module [reindex] 
[2017-08-24T13:35:47,932][INFO ][o.e.p.PlucinsService J [CHo4z-e] loaded module [tronsport-netty3] 
[2017-08-24T13:35:47,932)[INFO J[o.e.p.PlucinsService J [CHo4z-e] loaded module [tronsport-netty4] 
[2017-08-24713: .e.p.PluinsService J [alo4z-e] loaded plugin [onalysis-ik] 

[2017-08-24713. .e.d.DiscoveryModule —  [CHo4z-e] using discovery type [zen] 
[2017-08-24713:35:50,155][INFO J[o.e.n.Node J initialized 

[2017-08-24713:35:50,156]LINFO J[0.e.n.Node J [CHotz-e] storting ... 

[2017-08-24713:35:50,306][INFO J[o.e.t.TrorsportService J [CHo4z-e] publish_oddress (127.0.0.1:9300), bound_add 


resses [[feB0::1]: 
[2017-08-24713:35: 


9300), ([::1):9300), 
53, 448][INFO J[o.e.c. 


(127.0.0.1:9300) 
.S.ClusterService — ] 


[Cho4z-e] new noster (CHo42-e)/CHo4z--eNRi i Frwyx3váNwg] 


4-11 终端 启动 Elasticsearch 


Elasticsearch 默认 的 HTTP 端口 是 9200, TCP 端口 是 9300， 执 行 下 面 的 命令 访问 9200 端 
口 : curl localhost:9200， 输 出 结果 如 图 4-12 所 示 。 

也 可 以 如 图 4-13 所 示 在 浏览 器 中 直接 访问 9200 端口 ， 返 回 结果 和 命令 行 访问 是 一 样 的 ， 
都 是 一 个 JSON 对 象 。 


= localhost:9200 
Bee:- bee$ curl localhost :3200 


{ e C © localhost:9200 o 
"name" : "CHo4z-e", 
"cluster name" : "elasticsearch", { 
"cluster uuid" "gBcawmhrQkaKK-HFh35mz "name" : "CHoáz-e", 


"version" "cluster name" : "elasticsearch", 
"number" : "cluster uuid" : "gBcawmhrQkaKK-HFh35nEw", 
"bull . "version" : ( 
de epee "number" : "5.4.0", 

ui Ld. date "build hash" : "780f8c4", 


"build snapshot "build date" : "2017-04-28717:43:27.2292", 
"lucene. version" "build snapshot" : false, 
$; "lucene version" : "6.5.0" 


"tagline" : "You Know, for Search" ] 
“tagline” : "You Know, for Search" 


E bee$ } 
图 4-12 终端 访问 Elasticsearch 9200 端口 图 4-13 浏览 器 中 访问 Elasticsearch 9200 端口 


通过 返回 信息 可 以 知道 ， 已 经 成 功 启 动 了 一 个 Elasticsearch 节点 ， 节 点 的 名 称 为 
“CHo4z-e”， 集 群 名 称 是 默认 的 “elasticsearch”， 还 可 以 看 到 Elasticsearch 的 版 本 是 5.4.0， 
Lucene 版 本 6.5.0， 该 版 本 的 发 布 日 期 是 2017 年 4 月 28 日 。 
Elasticsearch 的 根 目录 下 各 文件 的 作用 见 表 4-2。 


表 4-2 Elasticsearch 安 装 目录 文件 说 明 
功 能 


= 


xtft GO 


bin 可 执行 文件 目录 
config 配置 文件 目录 
data 数据 存储 目录 
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( 续 表 ) 
文件 ( 夹 ) 功能 
lib 第 三 方 依赖 库 
logs 输出 日 志 目 录 
modules 依赖 模块 目录 
plugins 插件 目录 
LICENSE.txt LICENSE 声明 文件 
NOTICE.txt 版 权 声明 文件 
README textile Elasticsearch 介绍 信息 


4.24 后 台 运 行 Elasticsearch 


控制 台 输 出 的 方式 启动 Elasticsearch 适用 于 测试 阶段 或 者 开发 阶段 ， 在 生产 环境 中 ， 
Elasticsearch 应 当 作为 系统 服务 在 后 台 运行 。 后 台 启 动 Elasticsearch 的 命令 如 下 : 


./bin/elasticsearch -d 


加 上 -d 参数 以 后 Elasticsearch 会 在 后 台 启 动 , 不 会 在 终端 中 打印 集群 启动 的 相关 信息 。 因 
为 Elasticsearch 是 运行 在 JVM 之 上 ， 可 以 使 用 jps (JavaVirtual Machine Process Status Tool 的 
写 , 是 IDK 提供 的 一 个 查看 当前 Java 进程 的 小 工具 ) 命令 查看 Elasticsearch 是 否 启动 成 功 。 
如 图 4-14 所 示 , 在 启动 Elasticsearch 之 前 ,使 用 jps fi oe Java 进程 是 没有 Elasticsearch 
进程 的 ， 执 行 后 台 启 动 命令 之 后 再 次 查看 就 会 多 出 一 个 Elasticsearch 进程 ， 前 面 的 数字 代表 
Elasticsearch 的 进程 ID。 


Bee:elasticsearch-5.4.0 bee$ jps 

10184 Jps 

Bee:elasticsearch-5.4.0 bee$ ./bin/elasticsearch -d 

Bee:elasticsearch-5.4.0 bees jps 

10211 Jps 

10207 Elasticsearch 

Bee:elasticsearch-5.4.@ bee$ ps auxigrep elasticsearch 

bee 10207 1.6 20.0 6197540 1679272 s000 S 6:05F 午 0:20.91 
/usr/bin/java -Xms2g -Xmx2g -XX:+UseConcMarkSweepGC -XX:CMSInitiatingüccupancyF 
raction=75 -XX:+Use(MSInitiatingOccupancyOnly -XX:sDisableExplicitGC -XX:-Always 
PreTouch -server -Xssim -Djava.cwt.headless-true -Dfile.encoding-UTF-8 -Djna.nos 
ys-true -Djdk.io.permissionsUseCanonicalPathetrue -Dio.netty.noUnsafe=true -Dio. 
netty.noKeySetOptimizatior-true -Dio.netty.recycler.maxCopacityPerThread-0 -Dlog 
4j. shutdownHookEnabled=false -Dlog4j2.disable.;mx-true -Dlog4j.skiplonsi-true -X 
X:«HeapDumpOnQu*OfMemoryError -Des.path.home-/lsers/bee/Desktop/esScsdn/tool s/el 
asticsearch-5.4.0 -cp /Users/bee/Desktop/esScsdn/tools/elasticsearch-5.4.0/lib/* 
org.eiasticsearch.bootstrap.Elesticsearch -d 

bee 10221 0.0 0.0 2432772 652 s000 S+ 6:06F 午 0:00.00 
grep elasticsearch 

Bee:elasticsearch-S.4.0 bee$ kill 10207 

Bee:elasticsearch-5.4.0 beeS ips 

10230 Jps 

Bee:elasticsearch-5.4.@ bees 


4-14 查找 并 关闭 Elasticsearch 进程 
4.2.5 关闭 Elasticsearch 


需要 对 服务 器 进行 重启 或 者 关机 时 ， 首 先 要 关闭 正在 运行 的 Elasticsearch。 目 前 有 两 种 方 
式 关 闭 Elasticsearch: 如 果 Elasticsearch 是 控制 台 方 式 输出 运行 ， 可 以 在 终端 中 按 CTRL+C 


100 


从 Lucene 到 Elasticsearch: 全 文 检 索 实战 


(Linux 下 强制 结束 当前 进程 的 中 断 命 令 ) 组 合 键 来 关闭 ; 如 果 Elasticsearch 是 后 台 启 动 ， 需 
要 先 获取 Elasticsearch 的 进程 id， 再 使 用 结束 进程 的 命令 。 查找 Elasticsearch 进程 id 可 以 使 用 
jps 命令 , 也 可 以 使 用 ps aux|grep elasticsearch 命令 。 查找 到 Elasticsearch 的 进程 之 后 , 使 用 kill 
命令 终止 Elasticsearch 进程 。 


4.2.6 


基本 配置 


config 目录 是 存放 配置 文件 的 地 方 ， 该 目录 下 的 elasticsearch.yml 是 基本 配置 文件 ， 
jvm.options 是 虚拟 机 参数 配置 文件 ，log4j2.properties 是 日 志 配 置 文件 。Elasticsearch 的 一 些 常 
用 配置 介绍 如 下 : 


cluster.name: my-application 

配置 Elasticsearch 的 集群 名 称 , 默认 是 “elasticsearch”*，Elasticsearch 会 自动 发 现在 同一 网 段 
下 的 Elasticsearch 节点 ， 如 果 在 同一 网 段 下 有 多 个 集群 ， 就 可 以 用 这 个 属性 来 区 分 不 同 的 
node.name: node-1 

配置 Elasticsearch 的 节点 名 , 默认 随机 指定 一 个 漫 威 漫画 里 的 3000 多 个 角色 的 名 字 。 和 集 
群 名 称 一 样 可 以 自 定义 , 同一 个 集群 的 集群 名 称 要 配置 统一 , 节点 名 称 取 不 同 值 便于 区 分 。 
node.master: true 
指定 该 节点 是 否 是 master 节点 ， 默 认 是 true, Elasticsearch 默认 集群 中 的 第 一 台 机 器 为 
master， 如 果 这 台 机 出 现 故 障 就 会 重新 选举 master。 

node.data: true 

指定 该 节点 是 否 存储 索引 数据 ， 默 认为 tue。 

index.number of shards: 5 

设置 默认 索引 分 片 个 数 ， 默 认 值 为 5， 每 个 索引 分 成 5 个 分 片 。 在 5.0 版 本 以 前 有 效 ，5.0 
版 本 以 后 会 报 参数 异常 ， 提 示 节 点 中 不 能 指定 索引 级 别 的 配置 。 

index.number of replicas: 1 

设置 默认 索引 副本 个 数 ， 默 认为 1。 和 分 片 配置 一 样 ， 只 在 5.0 之 前 的 版 本 配置 生效 。 
path.data: /path/to/data 

设置 索引 数据 的 存储 路 径 ， 默 认 是 Elasticsearch 根 目录 下 的 data 文件 夹 ， 可 以 设置 多 个 存 
储 路 径 ， 用 逗号 隔 开 ， 比 如 : path.data: /path/to/datal, /path/to/data2 

path.logs: /path/to/logs 

设置 日 志文 件 的 存储 路 径 ， 默 认 是 Elasticsearch 根 目录 下 的 logs 文件 夹 
bootstrap.mlockall: true 

设置 为 true 来 锁 住 内 存 。 因 为 当 jvm 开始 swapping 时 Elasticsearch 的 效率 会 降低 ， 所 以 要 
保证 它 不 swap, 可 以 把 ES MIN MEM 和 ES MAX MEM 两 个 环境 变量 设置 成 同一 个 值 ， 
并 且 保 证 机 器 有 足够 的 内 存 分 配给 Elasticsearch 。 

network.host: 192.168.0.1 

设置 绑 定 的 IP 地 址 ， 可 以 是 IPv4 或 IPv6 的 ， 默 认为 0.0.0.0。 
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http.port: 9200 

设置 对 外 服务 的 HTTP 端口 ， 默 认为 9200。 

transport.tcp.port: 9300 

设置 节点 间 交 互 的 TCP 端口 ， 也 是 Java API 中 使 用 的 端口 ， 默 认 是 9300. 
transport.tcp.compress: true 

设置 是 否 压 缩 TCP 传输 时 的 数据 ， 默 认为 false， 不 压缩 。 

http.max_content_length: 100mb 

设置 内 容 的 最 大 容量 ， 默 认 100mb 

http.cors.enabled: false 

是 否 使 用 HTTP 协议 对 外 提供 服务 ， 默 认为 true。 

discovery.zen.minimum_master_nodes: 1 

设置 这 个 参数 来 保证 集群 中 的 节点 可 以 知道 其 他 N 个 有 master 资格 的 节点 。 默 认为 1。 
discovery.zen.ping.timeout: 3s 

设置 集群 中 自动 发 现 其 他 节点 时 ping 连接 超时 时 间 , 默认 为 3 秒 , 对 于 比较 差 的 网 络 环境 
可 以 高 该 值 来 防止 自动 发 现时 出 错 。 

discovery.zen.ping.multicast.enabled: false 

设置 是 否 打 开 多 播发 现 节点 ， 默 认 是 true. 

discovery.zen.ping.unicast.hosts: ["host1", "host2:port", "host3[portX-portY]"] 

设置 集群 中 master 节点 的 初始 列表 ， 可 以 通过 这 些 节 点 来 自动 发 现 新 加 入 集群 的 节点 。 
script.engine.groovy.inline.update: on 

启 groovy 脚本 支持 ,inline KISAA HI RU AY tX s 还 可 以 设 为 stored 1# file. update 
表示 人 允许 脚本 语言 执行 更 新 操作 ， 也 可 以 设置 其 他 操作 ， 比 如 search. eggs 等 。 
script.inline: true 


简写 方式 ， 开 始 所 有 脚本 语言 行内 执行 所 有 支持 的 操作 。 


4.3 REST 命令 


Elasticsearch 提供 用 于 各 种 任务 的 RESTful API， 我 们 首先 对 REST 架构 做 一 个 全 面 的 了 


ff. REST 全 称 是 Representational State Transfer， 翻 译 为 表述 性 状态 转移 ， 源 自 Roy Thomas 
Fielding 博士 2000 年 在 加 州 大 学 欧文 分 校 就 读 期 间 发 表 的 著名 博士 论文 《架构 风格 与 基于 网 络 
应 用 软件 的 架构 设计 》。 迄 今 为 止 , 关于 REST 最 系统 最 全 面 的 论述 仍 是 Fielding 博士 的 论文 。 


REST 4 架构 风格 最 重要 的 架构 约束 有 以 下 6*5: 
CD 采用 客户 -服务 器 (Client-Server) 架构 ， 通 信 只 能 由 客户 端 单方 面 发 起 ， 表 现 为 请 


求 -响应 的 形式 。 


(2) 通信 的 会 话 状态 由 客户 端 负责 维护 。 
G) 响应 内 容 可 以 在 通信 链 的 某 处 被 缓存 ， 以 改善 网 络 效率 。 
(4) 通信 链 的 组 件 之 间 通 过 统一 的 接口 相互 通信 ， 以 提高 交互 的 可 见 性 。 
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C50 KADERA (Layered System) 通过 限制 组 件 的 行为 《 即 ， 每 个 组 件 只 能 “看 到 ” 
与 其 交互 的 紧邻 层 ) ， 将 架构 分 解 为 若干 等 级 的 层 。 

(6) 支持 通过 下 载 并 执行 一 些 代 码 〈 例 如 Java Applet. Flash 或 JavaScript) ， 对 客户 端 
的 功能 进行 扩展 。 

REST 有 以 下 优点 : 


”可 更 高 效 地 利用 缓存 来 提高 响应 速度 。 
© 通信 本 身 的 无 状态 性 可 以 让 不 同 的 服务 器 处 理 一 系列 请 求 中 的 不 同 请 求 , 提高 服务 器 的 扩 
展 性 。 
浏览 器 可 作为 客户 端 ， 简 化 软件 需求 。 
相对 于 其 他 疤 加 在 HTTP 协议 之 上 的 机 制 ，REST 的 软件 依赖 性 更 小 。 
不 需要 额外 的 资源 发 现 机 制 。 
兼容 性 更 好 。 

TA REST 设计 风格 的 Web API 称 为 RESTful API, REST 是 设计 风格 而 不 是 标准 。REST 
通常 基于 使 用 HTTP、URI 和 XML 以 及 HTML 这 些 现 有 的 广泛 流行 的 协议 和 标准 。 在 一 个 类 
REST 的 架构 中 资源 是 由 URI 来 指定 的 ， 对 资源 的 操作 包括 获取 、 创 建 、 修 改 和 删除 ， 这 些 操 
作 正 好 对 应 HTTP 协议 提供 的 GET、POST、PUT 和 DELETE 方法 。 资 源 的 表现 形式 可 以 是 
XML、HTML、JSON 或 其 他 的 任何 格式 ， 通 过 操作 资源 的 表现 形式 来 操作 资源 。 表 4-3 列举 
了 HTTP 请 求 方法 在 RESTful API 中 的 典型 应 用 。 


表 4-3 HTTP 请 求 方法 在 RESTful API 中 的 典型 应 用 


方法 一 组 资源 的 URI， 比 如 单个 资源 的 URI， 比 如 

资源 | http://example.com/resources http://example.com/resources/1 
GET 列 出 URI， 以 及 该 资源 组 中 每 个 资源 的 详细 信 | 获取 指定 资源 的 详细 信息 ， 格 式 可 以 自选 一 个 
息 (后 者 可 选 ) 合适 的 网 络 媒体 类 型 (比如 ，XML、JSON 等 ) 
PUT 使 用 给 定 的 一 组 资源 蔡 换 当前 整 组 资源 蔡 换 /创建 指定 的 资源 ， 并 将 其 追加 到 相应 的 资 
源 组 中 
把 指定 的 资源 当 作 一 个 资源 组 ， 并 在 其 下 创建 / 
追加 一 个 新 的 元 素 ， 使 其 隶属 于 当前 资源 
删除 指定 的 元 素 


POST 在 本 组 资源 中 创建 /追加 一 个 新 的 资源 。 该 操作 
往往 返回 新 资源 的 URL 
DELETE | 删除 整 组 资源 


4.3.1 CURL 工具 


CURL 是 利用 URL 语法 在 命令 行 方式 下 工作 的 开源 文件 传输 工具 , 被 广泛 应 用 在 Unix, 
多 种 Linux 发 行 版 中 , 并 且 有 DOS 和 Win32、Win64 下 的 移植 版 本 , 支持 FTP、FTPS、HTTP、 
HTTPS、IMAP 、POP3 等 十 几 种 通信 协议 。 下 面 简介 一 下 在 Windows、Ubuntu、Mac OS X 
系统 上 安装 CURL 工具 的 方法 : 


e Windows 系统 安装 CURL 
如 果 使 用 的 是 Windows 操作 系统 ， 首 先 到 CURL 官网 (https:/WcurlLhaxx.se) 的 下 载 页 面 
找到 与 当前 所 使 用 的 系统 对 应 的 安装 包 ， 解 压 后 完成 安装 。 
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e Ubuntu 系统 安装 CURL 
如 果 使 用 的 是 Ubuntu 系统 ， 打 开 终端 ， 执 行 如 下 安装 命令 : 


sudo apt-get install curl libcurl3 libcurl3-dev php5-curl. 
命令 执行 完毕 后 需 重启 系统 。 


e MacOSX 系统 安装 CURL 

Mac OS X 系统 自 带 CURL 工具 ， 可 以 在 终端 执行 命令 :curl -Vv， 查 看 CURL 工具 的 版 本 
HE. 
使 用 CURL 发 送 GET 请 求 查看 一 条 文档 ， 执 行 命令 和 返回 结果 如 图 4-15 所 示 。 


Bee:~ bee$ curl -XGET "http://172.31.44.9:9200/blog/article/1?pretty” 
t 


"source" : 
"title" : "master jvm", 
"postdote" : "2017-08-01" 
} 


T 
Bee:- bee$ 


图 4-15 CURL 命令 查看 文档 
4.3.2 Kibana Dev Tools 


Kibana 是 Elastic 公司 推出 的 一 个 针对 Elasticsearch 的 开源 分 析 及 可 视 化 平台 ， 可 以 搜索 、 
查看 存放 在 Elasticsearch 索引 里 的 数据 ， 还 可 以 绘制 多 种 图 表 用 于 高 级 数据 分 析 与 可 视 化 。 
Kibana Dev Tools 是 Kibana 提供 的 一 个 开发 者 工具 , 可 以 方便 地 执行 REST 请 求 , 具有 自动 提 
示 和 自动 补 全 功能 。Kibana Dev Tools 的 前 身 是 Chrome 的 Sense 插件 ， 唯 一 的 缺点 是 对 中 文 
的 支持 不 是 太 好 。Kibana 的 安装 步骤 如 下 : 

ED) 下 载 Kibana 安装 包 : https://www.elastic.co/downloads/kibana 

CX02 解压 安装 包 : tar-zxvfkibana-5.4.0-darwin-x86 64.tar.gz 

E 修改 配置 文件 .修改 Kibana 根 目录 下 config 文件 夹 中 的 kibana.yml, RC elasticsearch.url 
的 值 为 Elasticsearch 的 访问 IP. 

EI 切换 到 kibana 根 目录 ， 执 行 启动 命令 


./bin/kibana 


©2105 访问 5601 端口 : http://localhost:5601 


Kibana 启动 成 功 后 ， 首 页 如 图 4-16 所 示 ，“Configure an index pattern ”是 配置 要 进行 数 
据 分 析 的 索引 名 规则 ， 支 持 正 则 表达 式 。 单 击 “Dev Tools” 菜 单 栏 ， 界 面 如 图 4-17 所 示 ， 左 
侧 输入 REST 命令 ， 单 击 绿色 箭头 即 可 执行 操作 ， 右 侧面 板 显示 操作 的 结果 。 
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Management / Kibana 
A kibana 


Index Patterns Saved Objects Advanced Settings 


€—€——— 


Visualize 


Dashboard 


Tinton Configure an index pattern 
Dev Tools In order to use Kibana you must configure at least one index pattern. Index patterns are used to identify the 


Elasticsearch index to run search and analytics against. They are also used to configure fields. 
Management 


Index name or pattern 
Patterns allow you to define dynamic index names using * as a wildcard. Example: logstash-* 


logstash-* 
€) Index contains time-based events 


Time-field name @ refresh felts 


Expand index pattern when searching 


图 4-16 Kibana 启动 首页 


Dev Tools History Settings Help 


Console 


1 (GET blog/article/1] 


>+ 


Auto indent 


Dashboard m 


Timelion : "master jvm", 


"postdate": "2017-08-01" 


Dev Tools 


Management 


Collapse 


图 4-17 Kibana 开发 者 工具 


44 中 文 分 词 器 配置 


4.4.1 IK 分 词 器 安装 


Elasticsearch 作为 开源 搜索 引擎 服务 器 ， 其 核心 功能 在 于 搜索 数据 。 索 引 是 把 文档 写 入 
Elasticsearch 的 过 程 ， 搜 索 是 匹配 查询 条 件 找 出 文档 的 过 程 ， 实 现 全 文 检索 一 个 分 析 过 程 ， 分 
析 过 程 主要 分 为 两 步 , 第 一 步 是 词 条 化 , 分 词 器 把 输入 文本 转化 为 一 个 个 的 词 条 流 ; 第 二 步 是 
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过 滤 , 在 这 个 阶段 有 若干 个 过 滤器 处 理 词 条 流 中 的 词 条 ,比如 停 用 词 过 滤器 会 从 词 条 流 中 去 除 
不 相干 的 词 条 , 同义词 过 滤器 会 添加 新 词 条 或 者 改变 已 有 词 条 , 小 写 过 滤器 会 把 所 有 词 条 变 成 
小 写 。 

Elasticsearch 内 置 多 种 分 词 器 可 供 使 用 ， 在 索引 和 查询 过 程 中 我 们 可 以 指定 分 词 器 ， 也 可 
以 通过 安装 插件 的 方式 使 用 第 三 方 分 词 工具 。Elasticsearch 内 置 的 分 词 器 简介 如 下 : 

e Standard Analyzer: 标准 分 词 器 会 把 句子 分 成 一 个 个 的 单词 ， 对 于 大 多 数 欧洲 语言 (比如 英 

iE) 进行 分 词 非常 合适 。 

e Simple Analyzer: 简单 分 词 器 基于 非 字 母 字符 进行 分 词 ， 单 词 会 被 转化 为 小 写字 母 。 

e Whitespace Analyzer: 空格 分 词 器 遇 到 空格 就 进行 切 分 。 

e ”Stop Analyzer: 与 简单 分 词 器 类 似 ， 增 加 了 停 用 词 过 滤 功 能 。 

。 Keyword Analyzer: 关键 词 分 词 器 非常 简单 ， 输 入 文本 和 输出 文本 全 部 相同 。 

。 ”Pattem Analyzer: 利用 正则 表达 式 对 文本 进行 灵活 划分 ， 单 词 会 被 小 写 ， 支 持 停 用 词 。 

e Language Analyzers: 对 特定 语言 的 分 词 器 ， 比 如 英语 、 法 语 。 

e Fingerprint Analyzer: 指纹 分 析 仪 分 词 器 通过 创建 标记 进行 重复 检测 。 

Elasticsearch 中 文 分 词 器 业界 使 用 最 多 的 是 elasticsearch-analysis-ik, ‘ti 4 Elasticsearch 的 
一 个 第 三 方 插件 ， 代 码 托 管 在 GitHub 上 ， 项 目地 址 为 : https://github.com/medel/ 
elasticsearch-analysis- 永 ， 统 一 版 本 号 之 后 IK 的 版 本 也 要 与 Elasticsearch 的 版 本 一 致 。 

IK 分 词 器 的 安装 步骤 如 下 : 


人 EN 打开 网 址 https://github.com/medcl/elasticsearch-analysis-ik/releases, 选择 5.4.0 版 本 , 找到 
elasticsearch-analysis-ik-5.4.0.zip， 下 载 到 本 地 并 解压 缩 。 

C€X302 在 elasticsearch-5.4.0/plugins/ 目 录 下 新 建 名 为 ik 的 文件 夹 ,拷贝 elasticsearch- analysis- 
ik-5.4.0 目录 下 的 所 有 文件 到 elasticsearch-5.4.0/plugins/ik/ 目 录 下 。 


最 后 ,重启 Elasticsearch 服务 ,启动 过 程 没有 报错 或 异常 , 日 志 输 出 信息 中 有 如 下 提示 说 
明 IK 分 词 器 插件 安装 成 功 : 


[INFO ] [ik-analyzer ] [Dict Loading] ik/custom/mydict.dic 
[INFO ] [ik-analyzer ] [Dict Loading] ik/custom/single_word_low_freq.dic 
[INFO ] [ik-analyzer ] [Dict Loading] ik/custom/ext_stopword.dic 


如 果 想 通过 编译 源码 的 方式 安装 ， 步 又 如 下 : 

CED 下 载 下 源码 文件 ,以 编译 master 分 支 上 最 新 的 版 本 为 例 ， 把 源码 下 载 到 本 地 , 命令 如 
下 : git clone https://github.com/medcl/elasticsearch-analysis-ik.git 

E 切换 到 根 目录 ， 运 行 mvn 打包 命令 mvn package， 打 包 完 成 以 后 根 目录 下 会 生成 一 个 
target 文件 夹 。 

EZI targetreleases 目录 下 的 压缩 包 即 为 IK 的 安装 文件 。 


4.4.2 ”扩展 本 地 词 库 


网 络 流行 语 层出不穷 ， 比 如 “洪荒 之 力 ”“ 蓝 瘦 香 菇 ”等 。 在 没有 加 入 自 定义 词 库 之 前 ， 
测试 分 词 效 果 : 
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PUT test 
GET /test/_analyze?analyzer=ik_smart 
{ 


"text": "洪荒 之 为 " 
} 
分 词 结果 : 
{ 
"tokens": [ 
{ 
"token": "PERE", 


"start offset": 0, 
"end offset": 2, 
"type": "CN WORD", 
"position": 0 


"token": "2A", 
"start offset": 2, 
"end offset": 4, 
"type": "CN WORD", 
"position": 1 


) 


在 elasticsearch-5.4.0/plugins/ik/config/ik/custom 目录 下 ， 新 增 文件 hotwords.dic， 在 文件 中 
添加 词语 “洪荒 之 力 ”, 每 一 个 词语 一 行 , 最 后 在 IK 插件 的 配置 文件 (elasticsearch-5.4.0/plugins/ 
ik/config/IKAnalyzer.cfg.xml ) 中 指定 新 增 的 词 库 位 置 。 要 想 使 自 定义 词 库 生效 ， 需 要 重启 
Elasticsearch。 如 果 配 置 成 功 ， 在 Elasticsearch 启动 的 输出 日 志 中 可 以 看 到 加 载 信息 : 


[INFO ][ik-analyzer ] [Dict Loading] ik/custom/hotwords.dic 
再 次 运行 分 词 测 试 命令 ， 分 词 结果 如 下 : 
{ 
"tokens" : [ { 
"token" : "洪荒 之 力 "， 
"start offset" : 0, 


"end offset" : 4, 
"type" : "CN WORD", 


"position" : 0 
1 
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扩展 本 地 停 用 词 词 库 的 方法 与 之 类 似 ， 新 增 停 用 词 字典 ， 在 配置 文件 中 指定 停 用 词 字典 
位 置 ， 重 启 Elasticsearch 即 可 。 


4.4.3 配置 远程 词 库 


新 建 一 个 Java Web 工程 ， 把 词 库 放 在 工程 WebContent 目录 下 ， 部 署 到 Tomcat 下 ， 确 保 
能 正常 访问 ， 如 图 4-18 所 示 。 


DD 172.31.44.9:8080/mydic/hot.- x 


€ Q © 172.31.44.9:8080/mydic/hot.dic 


厉害 了 我 的 哥 


图 4-18 远程 访问 自 定义 词 库 


在 字典 文件 中 按 行 写 入 新 词 ， 同 样 在 ik 插件 的 配置 文件 中 指定 新 增 的 远程 词 库 地 址 ， 然 
后 重新 启动 Elasticsearch。 当 字典 文件 中 有 新 词 增加 时 ，IK 分 词 插件 会 自动 重新 加 载 词典 ， 在 
日 志 中 会 输出 加 载 信息 ， 如 图 4-19 所 示 。 


[2017-10-08T22: 27:03, 891] [INFO ] [o.w.a.d.Monitor ] try load config from 
/Users/bee/Desktop/es5csdn/tools/elasticsearch-5.4.0/config/analysis-ik/IKAnaly 
zer.cfg.xnt 

[2017-10-08T22:27:03,892] [INFO ][o.w.a.d.Monitor ] try load config from 
/Users/bee/Desktop/esScsdn/tools/elasticsearch-5.4.0/plugins/elasticsearch-anal 
ysis-ik-5.4.0/config/IKAnalyzer.cfg.xm 
[2017-10-08T22:27:04,129] [INFO ] [o.w.a.d.Monitor 
m/newdic. dic 

[2017-10-08T22:27:04,129] [INFO ] [o.w.a.d.Monitor 
m/mydict.dic 

[2017-10-08T22: 27:04, 130] [INFO ] [o.w.a.d.Monitor 
m/single_word req.dic 

[2017-10-08122: 27:04, 132] [INFO ] [0.w.a.d.Monitor 


[Dict Loading] custo 


[Dict Loading] custo 


[Dict Loading] custo 


[Dict Loading] http: 


厉害 了 我 的 哥 
也 是 醉 了 


] [o.w.a.d.Monitor 
] [o.w.a.d.Monitor 
] [o.w.a.d.Monitor 
] [o.w.a,d,Monitor 
] [o.w.a.d.Monitor 
lio. -Monitor 
1[o.w.a.d.Monitor 


[2017-10-08T2 
[2017-10-0872: 
m/ext stopword. 
[2017-10-08T22:27: 


lud 
ja es a 
mm 
a 
m 


[Dict Loading] custo 


4146] [INFO ] [o.w.a.d.Monitor ] 重新 加 载 词典 完毕 ,。 


图 4-19 日 志 中 输出 远程 词 库 信息 
测试 分 词 效果 ， 执 行 命令 : 


GET /test/_analyze?analyzer=ik_smart 
{ 
"text": "ERER" 


[d 


结果 如 下 : 
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"tokens" : [ { 
"token" : "BAH", 
"start offset" : 0, 
"end offset" : 4, 
"type" : "CN WORD", 
"position" : 0 

) ] 


4.5 Head 插件 使 用 指南 


Elasticsearch-Head (简称 Head) 是 一 个 HTML 5 编写 的 集群 操作 和 管理 工具 ， 可 以 对 集 
群 进行 傻瓜 式 操作 。 在 Head 插件 中 可 以 显示 集群 的 拓扑 结构 ， 执 行 索引 和 节点 级 别 的 操作 ， 
同时 也 能 够 输入 RESTful 命令 和 Elasticsearch 交互 。5.0 之 前 的 版 本 可 以 通过 Elasticsearch 的 


plugin 命令 安装 ，5.0 版 本 之 后 的 Head 插件 独立 运行 。 
4.5.1 Head 插件 的 安装 

安装 步骤 如 下 : 

€D 配置 Node 环境 。 


由 于 Head 插件 是 采用 HTML 5 编写 的 , 它 的 运行 需要 Node.js 环 境 , 到 Node.js 官 网 http://nodejs.org 
下 载 安装 即 可 。npm 是 Node.js 的 包 管理 工具 ,通过 npm 可 以 下 载 Nodejs 的 模块 包 , npm 在 安装 Node.js 


时 顺带 已 经 安装 成 功 了 。 此 外 ， 还 需要 安装 Grunt， 它 是 一 个 基于 命令 的 Javascript 了 


具 ， 使 用 npm 安装 Grunt 的 安装 命令 如 下 : 


npm install -g grunt-cli 


[ 程 命令 行 构 建 工 


如 图 4-20 所 示 ， 分 别 使 用 node -v、npm -v、grunt -version 命令 查看 各 自 的 版 本 信息 ， 如 正确 返 


E] 


版 本 号 ， 说 明 Node 环境 配置 成 功 。 


Bee:elasticsearch-head-master bee$ node -v 

v6.9.4 

Bee:elasticsearch-head-master bee$ nmp -v 

-bash: nmp: command not found 
Bee:elasticsearch-head-master bee$ grunt -version 

grunt-cli v1.2.0 

grunt v1.0.1 

Bee:elasticsearch-head-master bee$ sudo npm install -g cnpm 
registry.npm.taobao.org 


/usr/local/lib 
na 


Bee:elasticsearch-head-master beeS 


420 Node 环境 配置 


--registryshttps:// 


/usr/local/bin/cnpm -> /usr/local/lib/node. modules/cnpn/bin/cnpm 
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E 下 载 Head 插件 源码 。 
Head 插件 项 目地 址 为 https://github.com/mobz/elasticsearch-head ， 下 载 源 码 到 本 地 ， 切 换 到 
elasticsearch-head-master 目录 下 ， 运 行 命令 : 


npm install 


如 果 速 度 较 慢 或 者 安装 失败 ， 可 以 使 用 国内 镜像 : 


sudo npm install -g cnpm --registry=https://registry.npm.taobao.org 
€Z 修改 Elasticsearch 配置 文件 。 
编辑 elasticsearch-5.4.4/config/elasticsearch.yml， 加 入 以 下 内 容 : 


http.cors.enabled: true 


http.cors.allow-origin: "*" 


作用 是 开启 HTTP 对 外 提供 服务 ， 使 Head 插件 能 够 访问 Elasticsearch RRF, (EKSTAZAMS 


启 Elasticsearch 。 


m 


CX 修改 Head 插件 配置 文件 。 


打开 elasticsearch-head-master/Gruntfilejs ， 找 到 下 面 connect 属性 ， 修 改 hostname 的 值 为 
Elasticsearch 的 访问 IP: 


connect: { 
server: { 
options: { 
hostname: 'localhost', 
port: 9100, 
base: '.', 


keepalive: true 


} 


€X35 启动 Head 插件 。 
切换 到 elasticsearch-head-master/ 目 录 下 ， 运 行 启动 命令 : 


grunt server 


启动 成 功 之 后 的 输出 信息 如 图 4-21 所 示 。 


Bee:elasticsearch-head-master bee$ grunt server 
Running "connect:server" (connect) task 

Waiting forever... 

Started connect web server on http://localhost:9100 


421 运行 Head 插件 


访问 9100 端口 即 可 看 到 如 图 4-22 所 示 的 界面 (spnews 和 blog 是 笔者 创建 的 两 个 索引 ) 。 
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p/hocanost e200 X elasticsearch SEERE: yellow (8 of 13) 
Elasticsearch =z x: sexs x«s3:4j s¢2a (+) 
am ET) Eos CIOE 一 ~ --— 
spnew: blog 
size: 35.3Mi(35.3M)) size: 6508 (6508) 
docs: 5,570 (5,570) docs: 0 (0) 
aD EÐ 1x3 


/N üt oJi]l2] [3] [4] 
socio DHA 回国 回回 加 
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4.5.2 Head 插件 的 使 用 


1. 概览 界面 

访问 Head 插件 首先 看 到 的 是 概览 选项 卡 , 在 概览 界面 可 以 查看 当前 集群 中 的 节点 个 数 、 索 
引信 息 、 集 群 健康 信息 等 。 如 图 4-22 所 示 ， 当 前 集群 名 称 为 Elasticsearch， 该 集群 有 1 个 节点 ， 
节点 名 称 为 CHo4z-e， 有 星星 标记 的 为 master 节点 。spnews 和 blog 是 Elasticsearch 中 存在 的 两 
个 索引 ， 索 引 的 大 小 、 文 档 个 数 都 在 索引 名 下 面 展示 出 来 了 ， 单 击 信息 和 动作 按钮 还 可 以 执行 
相应 的 操作 。 黄 色 背 景 显示 的 集群 健康 值 为 yellow， 创 建 的 blog 索引 默认 副本 数 为 1， 现 在 只 
启动 了 一 个 节点 ， 副 本 数据 没有 分 配 ， 因 此 集群 健康 值 是 黄色 的 。“8 of 13 ”表示 集群 中 共有 
13 个 分 片 ， 已 分 配 8 个 ， 还 有 5 个 是 未 分 配 状态 ， 图 中 绿色 的 方块 代表 可 用 的 索引 分 片 。 


2. 索引 查看 界面 
在 索引 界面 可 以 查看 集群 中 索引 的 大 小 和 文档 个 数 ， 如 图 4-23 所 示 。 


http://localhost:9200/ siz elasticsearch ”集群 健康 值 : yellow (8 of 13) 
Elasticsearch 4: p: | swum asenn] | sass] d 


wien  LILIJ 


Size Docs 
blog 6508/6508 0 
spnews 35.3Mi/35.3Mi 5.57k. 


FA 4-23 Head 插件 索引 选项 卡 


如 图 4-24 所 示 ， 单 击 新 建 索 引 按钮 可 以 创建 新 的 索引 ， 设 置 好 索引 名 称 、 分 片 数 、 副 本 
数 ， 单 击 OK 按钮 以 后 就 可 以 创建 一 个 索引 。 


‘http//localhost:9200/ 连接 elasticsearch ”集群 健康 值 : yellow (8 of 13) 
Elasticsearch ss zs sess xem (+) mamao LL 
索引 概览 

Size Docs 


blog 6508/6508 0 
Spnews 35.3Mi/35.3Mi5.57« 
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3. 数据 浏览 界面 
如 图 4-25 所 示 ， 切 换 到 数据 浏览 界面 可 以 查看 Elasticsearch 中 的 索引 、 类 型 、 文 档 的 详 
细 信 息 ， 单 击 左 侧面 板 还 可 以 根据 索引 、 类 型 进行 得 选 。 


Elasticsearch "eim SS elasticsearch $SAN: yellow (8 of 13) LH 
AE OR SSSR GARA BEER I+] 


qo Sh 8 AARHA 84. 5570 d. MM 0.005 9 
index — type id score a 


key. word. 
ER 


2015-1132 12:17:00 SHE CO 


图 4-25 Head 插件 数据 浏览 界面 


4. 基本 查询 选项 卡 


基本 查询 界面 如 图 4-26 所 示 ， 可 以 进行 布尔 查询 运算 。 图 中 的 操作 是 查询 spnews 索引 中 
的 文档 ， 查 询 条 件 是 title 字段 中 一 定 包 含 关 键 词 “ 足 球 ”， 单 击 “+” 还 可 以 添加 多 个 查询 条 
件 ， 单 击 search 按钮 进行 搜索 ， 搜 索 结 果 会 在 底部 显示 出 来 。 勾 选 “ 显 示 查 询 语句 ” 复 选 框 
可 以 看 到 一 个 JSON 格式 的 查询 字符 串 ， 这 也 是 Elasticsearch 接收 并 查询 的 搜索 语句 。 


$ newsme 
0 Ta 


BRIE ISON 
se IMPREMA 34. 82 命中 IL 0.002 9 

ndex — type ld _seore A postdate Mey word ié source title 

sprews news 506 13.176577 2016-10-19 07:18.00 WEFAN, #1, A 506 sina WLP HR Me NUR 
sprews news 2156 12.616503 2015-03-19 14:39:00 FA, HA, RER 22H 2:56 sim ARAMA UA RCRUM ROTE 
sprews news 1976 11.734192 2014-09-29 09:06:00 EIFHA,CE. REFER 皇家 名 里 1976 sina 什么 9 CHREHIARER: MEE 
sprewe news 10126 11.734192 2016-01-08 11:39:00 SDE JL RIM REANIAT 。 1126 sina OLAS REF MLONRF 
sprews news 1969 10.810408 2016-10-20 14:51:00 BARRERRAGSLMGER 1869 sins Jb ARRON 


图 4-26 Head 基本 查询 界面 
5. 复合 查询 


复合 查询 界面 如 图 4-27 所 示 ， 在 左 侧 查 询 面板 中 输入 Elasticsearch 服务 器 地 址 、 要 查询 
的 索引 和 要 执行 的 操作 C search 表示 搜索 操作 ) ， 空 白 部 分 写 入 查询 语句 ， 勾 选 “ 易 读 ” 按 
钮 可 以 格式 化 JSON 字符 串 ， 单 击 “ 验 证 JSON” 可 以 对 查询 语句 的 格式 进行 验证 ， 单 击 “ 提 
交 请 求 ” 即 可 执行 查询 ， 右 侧面 板 中 返回 查询 结果 。 如 果 需 要 保留 多 个 复合 查询 ， 可 以 单 击 复 
合 查 询 菜 单 旁 的 “+”。 


112 从 Lucene 到 Elasticsearch: 全 文 检 索 实战 


Elasticsearch "0 SR elasticsearch SRESER: yellow (8 of 13) LIH 
A? RS REAR 。 基本 查 将 [+】 Been(+) 
parer t 
ven 
hap/Mocaost 2200/ sear 
Post ¢ 
i 
"query: ( 
bool { 
"meti [ 
Li 
snatch": 4 
"title: “足球 * 
7 
LU 
1 ". 
) 13.176577, 
, source": 
, 'postdate": "2016-10-19 07:18:00", 
"key word": "RS, ARSENI, 
06306, 
source”: “sina, 
TU “EN ABREN- REN HROREN, 
STUNNER, RDAHENSKNKE 
BISBRE.GN. REBRH. BB. ASATM, RAFAEL EAANLE, -MEE 
: Wx. — UIDERDIROERKR. TT LBR. SERERE 
BRWR BELSON OBR SR. ANDREN, HERTICHAMIERB. E 
pannas , k HRK. FUSER”. 在 这 
parar A 
parea ? 
ROAMMEAT—RBLMNAR, SRHTABAAR. EARS TT 
ANRDHARRURXOSETGLZ. ORSESUBRISSA METAS 


图 4-27 复杂 查询 
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本 章 对 Elasticsearch 进行 了 概述 ， 介 绍 了 Lucene 和 Elasticsearch 的 关系 、Elasticsearch 的 
核心 概念 和 安装 配置 步骤 、 中 文 分 词 器 的 安装 与 配置 、Head 和 Kibana 的 使 用 方法 以 及 如 何 向 
Elasticsearch 发 送 REST 命令 。 


Elasticsearch 集群 入 门 


本 章 学 习 要 点 : 


党 ”Elasticsearch 索引 管理 
党 “Elasticsearch 文档 管理 
%* =~ Elasticsearch 映射 详解 


5.4 索引 管理 


本 节 从 新 建 一 个 索引 开始 Elasticsearch 的 学 习 之 旅 , 包括 如 何 进行 索引 的 创建 、 索 引 的 删 
除 、 副 本 的 更 新 、 索 引 读 写 权 限 以 及 索引 别名 的 配置 。 


5.1.1 新建 索 引 

创建 索引 和 在 MySQL 中 创建 一 个 数据 库 是 一 样 的 ， 注 意 Elasticsearch 索引 名 称 中 不 能 出 
现 大 写字 母 。 例 如 新 建 一 个 索引 ， 名 为 blog， 命 令 如 下 : 

PUT blog 

响应 结果 : 


{ 
"acknowledged": true, 
“shards acknowledged": true 
) 


返回 结果 显示 acknowledged [HA true, 说明 新 建 索 引 成 功 。 如 果 索 引 名 含有 大 写字 和 母 ， 
会 报 一 个 非法 的 索引 名 异常 ， 测 试 命令 如 下 : 
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PUT Abc 
响应 结果 : 
{ 

"error": ( 


"root cause": [ 
{ 


"type": "invalid index name exception", 
"reason": "Invalid index name [Abc], must be lowercase", 
"index uuid": " na ", 


"index": "Abc" 
H 
l; 


"type": "invalid_index_name_exception", 
"reason": "Invalid index name [Abc], must be lowercase", 
"index uuid": " na ", 


"index": "Abc" 

}, 

"status": 400 
} 
如 果 新 添加 的 索引 在 Elasticsearch 服务 器 中 已 存在 ， 新 建 同 名 索引 会 报 索 引 已 存在 异常 ， 

再 一 次 执行 创建 名 为 blog 的 索引 命令 : 

PUT blog 
响应 结果 : 
{ 


"error": { 
"root cause": [ 
{ 
"type": "index already exists exception", 
"reason": "index [blog/-Mf4cVKWRm6TJIFjieeWhw] already 
exists", 
"index uuid": "-Mf4cVKWRm6TJIFjieeWhw", 
"index": "blog" 
) 
l; 


"type": "index_already_exists_exception", 
"reason": "index [blog/-Mf4cVKWRm6TJIFjieeWhw] already exists", 
"index uuid": "-Mf4cVKWRm6TJIFjieeWhw", 


"index": "blog" 
br 
"status": 400 
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Elasticsearch 默认 给 一 个 索引 设置 5 个 分 片 1 个 副本 ， 一 个 索引 的 分 片 数 一 经 指定 后 就 不 
能 再 修改 , 副本 数 可 以 通过 命令 随时 修改 。 如 果 想 创建 自 定义 分 片 数 和 副本 数 的 索引 ,可 以 通 
过 setting 参数 在 索引 时 设置 初始 化 信息 。 以 创建 3 个 分 片 0 个 副本 名 为 blog 的 索引 为 例 ， 命 
令 如 下 : 

PUT blog 

{ 

"settings": { 
"number of shards": 3, 
"number of replicas": 0 

) 

) 


5.1.2 更 新 副本 
Elasticsearch 支持 修改 一 个 已 存在 索引 的 副本 数 , 把 blog 索引 的 副本 数 设置 为 2, 命令 如 下 : 


PUT blog/_settings 
{ 


"number of replicas": 2 
) 
5.1.3 ZSRR 
除了 设置 分 片 和 副本 ， 还 可 以 对 索引 的 读 写 操作 进行 限制 ， 下 面 是 三 个 读 写 权限 的 参数 : 
e blocks.read_only:true 设置 当前 索引 只 人 允许 读 不 允许 写 或 者 更 新 。 
e blocks.read:true ”禁止 对 当前 索引 进行 读 操作 。 
€ blocks.write:rue ”禁止 对 当前 索引 进行 写 操作 。 
以 禁止 blog 索引 进行 写 操作 为 例 ， 执 行 命令 如 下 : 
PUT blog/_settings 
{ 


"blocks.write": true 
H 
命令 执行 完成 以 后 就 不 能 再 往 blog 索引 中 写 入 数据 ， 和 否则 会 报 索引 锁定 异常 ， 测 试 写 入 
T 条 文档 : 
PUT blog/article/1 


{ 
"title": " Java 虚拟 机 " 


返回 结果 : 
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} 


"root cause": [ 
{ 
"type": "cluster block exception", 
"reason": "blocked by: [FORBIDDEN/8/index write (api)];" 
H 
1, 
"type": "cluster block exception", 
"reason": "blocked by: [FORBIDDEN/8/index write (api)];" 
Jy 
"status": 403 


恢复 索引 的 写 入 权限 ， 只 需 把 索引 的 blocks.write 属性 设置 为 false 即 可 ， 命 令 如 下 : 


PUT blog/_settings 


{ 


} 


"blocks.write": false 


5.14 查看 索引 


使 用 GET 方法 加 上 _setting 参数 可 以 查看 一 个 索引 的 所 有 配置 信息 ， 例 如 查看 blog 索引 
所 有 的 设置 信息 ， 命 令 如 下 : 


GET blog/_settings 


返回 结果 : 


{ 


"blog": t 
"settings": { 
"index": ( 
"number of shards": "3", 
"blocks": { 
"write": "false" 
Ta 
"provided name": "blog", 
"creation date": "1503133584844", 
"number of replicas": "2", 
"uuid": "OyOX5PqNTtKmwRQouFsd80Q", 
"version": ( 
"created": "5040099" 
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同时 查看 多 个 索引 的 setting 信息 ， 命 令 如 下 : 
GET blog,twitter/ settings 


查看 集群 中 所 有 索引 的 setting 信息 ， 命 令 如 下 : 


GET _all/_settings 


5.1.5 ”删除 索引 


索引 的 删除 只 需要 使 用 DELETE 方法 ， 传 入 要 删除 的 索引 名 即 可 ， 执 行 索 引 删 除 命令 之 
前 需要 慎重 考虑 , 因为 一 旦 执行 删除 操作 索引 中 的 文档 就 不 复 存在 , 注意 在 删除 重要 数据 之 前 
做 好 备份 工作 。 

删除 名 为 blog 的 索引 ， 命 令 如 下 : 


DELETE blog 
如 果 删 除 成 功 ， 会 有 以 下 响应 : 
{ 


"acknowledged": true 


} 


如 果 删 除 的 索引 名 不 存在 ， 会 报 索 引 未 找到 异常 。 尝 试 删除 一 个 不 存在 的 索引 ， 执 行 
命令 : 


DELETE bloga 
响应 结果 : 
{ 


"errors: f 
"root cause": [ 
{ 
"type": "index_not_found_exception", 
"reason": "no such index", 
"resource.type": "index or alias", 
"resource.id": "bloga", 
"index uuid": " na ", 
"index": "bloga" 
) 
1, 
"type": "index not found exception", 
"reason": "no such index", 
"resource.type": "index or alias", 
"resource.id": "bloga", 
"index uuid": " na ", 
"index": "bloga" 
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ty 
"status": 404 
} 


5.1.6 索引 的 打开 与 关闭 
Elasticsearch 中 的 索引 可 以 进行 打开 和 关闭 操作 , 一 个 关闭 了 的 索引 几乎 不 占用 系统 资源 。 
关闭 一 个 索引 的 命令 如 下 : 
POST blog/_close 


索引 关闭 后 ，Head 插件 中 会 显示 关闭 状态 的 索引 ， 已 关闭 的 索引 不 能 进行 读 写 操作 。 一 
个 关闭 的 索引 可 以 重新 开启 ， 命 令 如 下 : 


POST blog/_open 


同时 关闭 或 开启 多 个 索引 也 是 允许 的 ， 以 同时 关闭 testa、testb、testc 三 个 索引 为 例 ， 命 


POST testa, testb, testc/_close 
同时 打开 三 个 索引 : 
POST testa,testb,testc/ open 


如 果 Elasticsearch 集群 中 不 存在 开启 /关闭 请 求 中 的 全 部 索引 ， 将 会 抛 出 索引 不 存在 错误 ， 
此 时 可 以 通过 ignore unavailable 参数 来 操作 只 存在 的 索引 ， 命 令 如 下 : 


POST testa,testb,testc/ close?ignore unavailable-true 


索引 的 开关 操作 也 支持 通配符 和 _all， 关 闭 集群 中 所 有 索引 的 命令 如 下 : 


POST _all/_close 


关闭 以 test 开头 的 索引 : 
POST test*/_close 
5.1.7 复制 索引 


_reindex API 可 以 把 文档 从 一 个 索引 ( 源 索 引 ) 复制 到 另 一 个 索引 (目标 索引 〉 ， 目 标 索引 
不 会 复制 源 索 引 中 的 配置 信息 ，_reindex 操作 之 前 需要 设置 目标 索引 的 分 片 数 、 副 本 数 等 信息 。 
把 blog 索引 的 文档 复制 到 blog new 索引 中 的 命令 如 下 : 


POST reindex 
{ 
"source": { "index": "blog"), 
"dest": ("index": "blog news"] 
} 


上 述 命令 会 把 源 索引 中 的 所 有 文档 都 复制 到 目标 索引 中 ， 也 可 以 在 源 索引 中 增加 type 和 
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query 来 限制 文档 , 下 面 把 blog 索引 article 类 型 下 title PAA git 关 键 字 的 文档 复制 的 blog_new 
索引 中 ,命令 如 下 : 


POST reindex 
{ 
"source": { 
"index": "blog", 


"type":"article", 


"query":{ 
"term": { "title"? "git") 

) 

}, 

"dest": { 
"index": "blog news" 

) 

) 
5.1.8 收缩 索引 


一 个 索引 的 分 片 初始 化 以 后 是 无 法 再 做 修改 的 ， 但 可 以 使 用 shrink index AP 提供 的 缩小 
索引 分 片 数 机 制 ， 把 一 个 索引 变 成 一 个 更 少 分 片 的 索引 , 但 是 收缩 后 的 分 片 数 必须 是 原始 分 片 
数 的 因子 ， 比 如 有 8 个 分 片 的 索引 可 以 收缩 为 4、2、1， 有 15 个 分 片 的 索引 可 以 收缩 为 5、3、 
1， 如 果 分 片 数 为 素数 (7、11 等 ) ， 那 么 只 能 收缩 为 1 个 分 片 。 收 缩 索引 之 前 ， 索 引 中 的 每 
个 分 片 都 要 在 同一 个 节点 上 。 收 缩 索引 的 完成 过 程 如 下 : 


首先 ， 创 建 一 个 新 的 目标 索引 ， 设 置 与 源 索 引 相同 ， 但 新 索引 的 分 片 数 量 较 少 。 

然后 ， 把 源 索 引 硬 链接 到 目标 索引 。 (如 果 文 件 系 统 不 支持 硬 链接 ， 那 么 所 有 上段 都 被 复 
制 到 新 索引 中 ， 这 是 一 个 耗费 更 多 时 间 的 过 程 。) 

最 后 ， 新 的 索引 恢复 使 用 。 
在 缩小 索引 之 前 ， 索 引 必 须 被 标记 为 只 读 ， 所 有 分 片 都 会 复制 到 一 个 相同 的 节点 并 且 节 
点 健康 值 为 绿色 的 。 这 两 个 条 件 可 以 通过 下 列 请 求实 现 ， 以 收缩 blog 索引 为 例 ， 命 令 如 下 : 

PUT blog/_settings 


{ 


"index.routing.allocation.require. name": "shrink node name", 


"index.blocks.write": true 


} 
blog new 为 目标 索引 , 在 收缩 时 可 指定 目标 索引 的 分 片 数 、 副 本 数 等 配置 信息 , 命令 如 下 : 


POST blog/_shrink/blog_new 
{ 
"settings": { 
"index.number of replicas": 0, 
"index.number of shards": 1, 
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"index.codec": "best compression" 
) 
"aliases": ( 
"my search indices": {} 
) 
H 


5.19 索引 别名 


索引 别名 就 是 给 一 个 索引 或 者 多 个 索引 起 的 另 一 个 名 字 。 为 名 为 testl 的 索引 创建 别名 
alias1， 命 令 格式 如 下 : 


POST /_aliases 
{ 


"actions" =: [ 
| "add" : [ "index" : "testi", "alias" : "aliai" } j 
] 
} 
移 除 别名 : 


POST /_aliases 
{ 


"actions" : [ 
{ "remove" : { "index" : "testl", "alias" : "aliasl" ) } 


) 
一 次 给 多 个 索引 创建 同一 个 别名 : 


POST /_aliases 
{ 


"actions" : [ 
{ "add" : [ "index" i "testi", "alias" : "aliasi" p f; 
í "add" ; [ “index” ; "rtest2", "alias" ; "aliasI" } } 


) 
上 述 命令 也 可 以 使 用 简写 形式 ， 命 令 如 下 : 


POST /_aliases 
{ 
"actions" : [ 
{ "add" : { "indices" : ["test1", "test2"], "alias" : “aliasi" } } 
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同样 也 可 以 一 次 性 移 除 别 名 : 


POST /_aliases 

{ 
"actions" : [ 
{ "remove" : ( "indices" : ["test1", "test2"], "alias" : "aliasi" jj 
] 

H 


增加 别名 和 移 除 别 名 也 可 以 混合 使 用 : 


POST /_aliases 
{ 


"actions" z [ 
{ "remove" : ( "index" : "testl", "alias" : "aliasl" } }, 
{ "add" : { "index" : "test2", "alias" z "aliasl1" p } 


) 


如 图 5-1 所 示 ， 给 索引 spnews 和 blog 创建 别名 myblog, TE head 插件 中 会 有 索引 别名 的 
显示 ， 设 置 别名 以 后 ， 对 别名 myblog 进行 操作 等 价 于 对 索引 spnews 和 blog 进行 操作 。 


Elasticsearch mt/ocanost9200/ 3| elasticsearch M 
LIAE NE 5| NE s: [+] AR [+] 
LLL Ml seis - [ Sort indices ~ | View Aliases - IIT tug 


spnews blog -kibana 
size: 34.7Mi (34.7Mi) size: 3.95ki (3.95ki) size: 3.17ki (3.17ki) 


docs: 5,570 (5,570) docs: 1 (1) docs: 1 (1) 


CD TD [us -Tor -) aD AD 
myblog — X myblog x 
x et. DDA omaga 回 
图 5-1 Head 插件 中 查看 索引 别名 


需要 注意 的 是 ， 如 果 别 名 和 索引 是 一 对 一 的 ， 使 用 别名 索引 文档 或 者 根据 ID 查询 文档 是 
可 以 的 ， 但 是 如 果 别 名 和 索引 是 一 对 多 的 ， 使 用 别名 会 发 生 错误 ， 因 为 Elasticsearch 不 知道 把 
文档 写 入 哪个 索引 中 去 或 者 从 哪个 索引 中 读 取 文档 。 执 行 查看 文档 命令 : 


GET myblog/article/1 
返回 结果 : 
{ 


"error": { 


"root cause": [ 
t 
"type": "illegal argument exception", 
"reason": "Alias [myblog] has more than one indices associated with it 
[[blog, spnews]], can't execute a single index op" 
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} 


1, 
"type": "illegal argument exception", 
"reason": "Alias [myblog] has more than one indices associated 


with it [[blog, spnews]], can't execute a single index op" 
}, 
"status": 400 
} 


Elasticsearch 支持 通过 通配符 同时 给 多 个 索引 设置 别名 , 假设 集群 中 存在 test、testa、testb 
三 个 索引 ， 执 行 命令 给 所 有 以 test 开头 的 索引 设置 别名 ， 命 令 如 下 : 

POST /_aliases 

{ 


"actions" © [f "add" ss [ "index" : "test*", "alias" = "mytest" } 33 


) 
在 Head 插件 中 查看 效果 ， 如 图 5-2 所 示 ， 可 以 看 到 test. testa. testb 三 个 索引 有 共同 的 
别名 mytest。 


Elasticsearch nttpyiocanost9200/ i | elasticsearch 


概览 索引， 数据 浏览 ”基本 查询 [+] ， 复 合 查询 [+] 
LM eros -| Sort indices TIE TT 


testb testa test 
size: 390B (390B) Size: 390B (3908) size: 390B (390B) 
docs: 0 (0) docs: 0 (0) docs: 0 (0) 


mytest x mytest x mytest x 
x vez. 00A OHA 回国 回 
图 5-2 Head 插件 中 查看 索引 共有 别名 


如 果 想 要 查看 某 一 个 索引 的 别名 是 什么 ， 比 如 查看 上 例 中 索引 test 的 别名 ， 可 执行 以 下 
命令 : 


GET /test/_aliases 
返回 结果 : 


{ 
"test": { 


"aliases": ( "mytest": {}} 


} 
查看 “mytest” 对 应 哪些 索引 的 别名 ， 执 行 命令 : 


GET /mytest/_aliases 
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返回 结果 : 
{ 
"test": { 
"aliases": ("mytest": {}} 
} 
"testb": ( 


"aliases": {"mytest": {}} 
j 
"testa": { 
"aliases": ("mytest": {}} 
} 
} 
查看 Elasticsearch 集群 上 所 有 的 可 用 别名 ， 执 行 命令 : 
GET /_aliases 
返回 结果 : 
"test": { 
"aliases": { "mytest": {}} 
}, 
"spnews": { 
"aliases": {"myblog": {}} 
}, 
"blog": t 
"aliases": ("myblog": {}} 
}, 
".kibana": { 
"aliases": {} 
} 
} 


52 文档 管理 


Elasticsearch 中 文档 的 增删 改 查 和 关系 型 数据 库 操作 非常 相似 ， 当 然 Elasticsearch 作为 一 
个 搜索 引擎 服务 器 功能 远 不 仅 如 此 。 


5.2.1 新 建文 档 
准备 一 条 JSON 格式 博客 文章 ， 包 括 文章 的 id、 标 题 、 发 布 时 间 、 文 章 内 容 。 
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PUT blog/article/1 
{ 
"id": 1, 
"title": "Git far", 


"posttime": "2017-05-01", 


"content": "Git 是 一 款 免 费 、 开 源 的 分 布 式 版 本 控制 系统 " 


H 


如 果 没 有 出 现 错误 ，Elasticsearch 服务 器 会 返回 一 个 JSON 格式 的 响应 。 


{ 


" index": "blog", 


" type": "article", 

be eb 

" version": 1, 

"result": "created", 

" Shards": { 
"total"; 1, 
"successful": 1, 
"failed": 0 

) 

"created": true 


) 


响应 信息 中 包含 创建 的 文档 所 在 的 索引 (index) 、 类 型 (type) 、id、 版 本 、 分 片 、 是 否 


"id": 1, 
"title": "Git 简介 "， 


"posttime": "2017-05-01", 


创建 成 功 等 信息 。 其 中 index/type/id 用 于 确定 文档 所 在 的 位 置 , 版 本 号 会 随 着 文档 的 更 新 自动 
递增 ，shards 用 于 显示 分 片 信息 。 

如 果 不 指定 文档 的 id, Elasticsearch 
执行 索引 文档 命令 : 

POST blog/article 

{ 


会 自动 生成 它 ， 把 上 面 的 命令 去 掉 id 参数 ， 然 后 再 次 


"content": "Git 是 一 款 免费 、 开 源 的 分 布 式 版 本 控制 系统 " 


} 
Elasticsearch 响应 结果 : 


{ 
" index": "blog", 
" type": "article", 
" id": "AV37Fs3T7NCuL2SahBal 
" version": 1, 


"result": "created", 


L 


第 5 章 Elasticsearch 集群 入 门 125 


" shards": ( 
"totas Ly. 
"successful": 1, 
"failed": 0 

he 

"created": true 

} 


从 响应 结果 中 可 以 看 到 文档 创建 成 功 了 ，id 是 自动 生成 的 字符 串 。 采 用 这 种 方式 创建 文 
档 要 使 用 POST 方法 ， 使 用 PUT 方法 会 出 现 异常 。 
5.22 ”获取 文档 

Elasticsearch 提供 了 GET API 查看 存储 在 Elasticsearch 服务 器 中 的 文档 ， 使 用 GET 命令 
并 指定 文档 所 在 的 索引 、 类 型 和 id 即 可 返回 一 个 JSON 格式 的 文档 ， 命 令 如 下 : 

GET blog/article/1 

响应 结果 : 

{ 


" index": "blog", 


" type": "article", 
"m gg" mam, 
" version": 1, 
"found": true, 
" source": ( 
siae: dy 
"title": "Git fais", 
"posttime": "2017-05-01", 
"content": "Git 是 一 款 免费 、 开 源 的 分 布 式 版 本 控制 系统 " 


返回 结果 中 前 4 个 属性 表明 文档 的 位 置 和 版 本 信息 ,found 属性 用 于 表明 是 否 查询 到 文档 ， 
_source 字段 中 是 文档 的 内 容 。 
同样 ， 如 果 要 看 一 下 文档 不 存在 的 情况 ， 可 执行 查询 命令 ， 查 询 一 个 不 存在 的 id: 


GET blog/article/100 


响应 信息 : 

{ 
" index" : "blog", 
" type" : "article", 
" dd" : "100", 


"found" : false 
} 
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可 以 看 出 , found 属性 值 为 false, 因为 文档 不 存在 , 当然 也 就 没有 版 本 信息 和 source 字段 。 
通过 HEAD 命令 可 以 检查 一 个 文档 是 否 存在 : 


HEAD blog/article/1 


如 果 文 档 存 在 ， 返 回 “200 -OK”， 反 之 返回 “404 - Not Found” o 

如 果 想 根据 id 一 次 获得 多 个 文档 ， 可 以 使 用 Multi GET API 根据 索引 名 、 类 型 名 、id (或 
者 路 由 ) 一 次 获取 多 个 文档 ， 返 回 一 个 文档 数组 。 举 例如 下 : 

GET mget 

{ 


"docs" > I 


t 


" index" : "blog", 
" type" : "article", 
" id" ; "1" 

) 

{ 
" index" : "twitter", 
" type" : "tweet", 
" id" : "2" 


) 
如 果 是 同一 个 index 下 的 不 同 type， 可 以 简写 如 下 : 


GET blog/_mget 
{ 
"docs": [ 
{ 
" type": "typeA", 
"* dd"s mim 
) 
{ 
" type": "typeB", 
EU 
) 
] 
} 


如 果 index Fil type 都 相同 ， 可 以 简写 为 : 


GET blog/article/ mget 
{ 
"docs" è f 
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[ aan Ij; 
Qn qas 2") 
] 
H 
进一步 简化 : 


GET blog/article/_mget 


"ids" : ["1", "2"] 


52.3 ”更 新 文档 

文档 被 索引 之 后 ， 如 果 要 更 新 ,那么 Elasticsearch 内 部 首先 要 找到 这 个 文档 ， 删 除 旧 的 文 
档 内 容 执行 更 新 ， 更 新 完 后 再 索引 最 新 的 文档 。 下 面 以 具体 例子 介绍 Update API. 

首先 ， 索 引 一 条 文档 ， 命 令 如 下 : 


PUT test/typel/1 
{ 
"counter" : 1, 
"tags" : ["red"] 
) 
现在 对 其 进行 更 新 操作 ， 把 counter 字段 的 值 加 上 4， 更 新 命令 如 下 : 


POST test/typel/1/ update 
( 


"sor3pE" of 
"inline": "ctx. source.counter += params.count", 
"lang": "painless", 
"params" : ( 
"count" : 4 
) 


) 

执行 完 以 上 命令 之 后 ，counter 字段 的 值 将 变 为 5。 命 令 中 inline 是 执行 的 脚本 ，ctx 是 脚 
本 语言 中 的 一 个 执行 对 象 , painless 是 Elasticsearch 内 置 的 一 种 脚本 语言 ，params 是 参数 集合 。 
上 述 命令 的 自然 语言 描述 如 下 :使 用 painless 脚本 更 新 文档 ,通过 ctx 获取 source 再 修改 counter 
字段 ，counter 字段 等 于 原 值 加 上 count 参数 的 值 。 

ctx 对 象 除了 可 以 访问 _source 之 外 ， 还 可 以 访问 _index、_type、_id、_version、_routing、 
_ parent 等 字段 。 

tags 字段 的 取 值 为 数组 类 型 ， 先 对 其 增加 一 个 值 ， 命 令 如 下 : 

POST test/typel/1/ update 

{ 
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"script" i 
"inline": "ctx. source.tags.add(params.tag)", 
"lang": "painless", 
"params" : ( 
"tag" : "blue" 


) 
如 果 想 给 文档 新 增 一 个 字段 ， 可 以 执行 以 下 命令 : 


POST test/typel/1/_update 
{ 


"script" : "ctx. source.new field = \"value_of_new_field\"" 


} 
同样 也 可 以 移 除 一 个 字段 : 


POST test/typel/1/ update 
{ 


"Script" : "ctx. source.remove(\"new_field\")" 


} 


删除 tags 数组 中 含有 red 的 文档 ， 命 令 如 下 (其 中 ctx.op 等 于 delete， 表 示 删 除 该 文档 ; 
ctx.op 等 于 none， 表 示 不 执行 任何 操作 ) : 


POST test/typel/1/_update 
{ 


"seripe™ f 
"inline": "if (ctx. source.tags.contains (Params .tag) ) 
{ctx.op = \"delete\" } else { ctx.op = \"none\" }", 
"lang": "painless", 
"params" : ( "tag" : "red" } 


) 


此 外 ,更 新 文档 还 有 一 个 upsert 操作 ， 其 作用 是 处 理 待 更 新 的 文档 不 存在 的 情况 。 如 果 文 
档 不 存在 ，upsert 会 新 建 一 个 文档 ， 文 档 存 在 ， 则 正常 执行 script 脚本 。 下 面 的 命令 中 ， 如 果 
文档 test/type1/1 存在 且 有 counter 字段 ， 则 会 执行 script 中 的 内 容 ，counter 的 值 会 增加 4; 4 
不 存在 文档 test/type1/1， 则 会 新 建文 档 test/type1/1 并 新 增 一 个 字段 counter. 


POST test/typel/1/ update 
t 


"geript" s f 
"inline": "ctx. source.counter += params.count", 
"lang": "painless", 


"params" : ("count" : 4) 
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}, 


"upsert" : { 
"counter" » 1 
} 
H 
524 ”查询 更 新 


Elasticsearch 支持 条 件 查 询 更 新 文档 ， 使 用 的 是 Update By Query API。 下 面 给 出 一 个 查询 
更 新 的 例子 ， 对 title 中 包含 git 关键 字 的 文档 增加 一 个 category 字段 ， 命 令 如 下 : 


POST blog/_update_by query 
{ 


"Script": d 


"inline": "ctx. source.category - params.category", 
"lang": "painless", 
"params": ( "category":"git" ) 

}, 

"query": { 


"term"; { "title"; "git"] 


) 


5.2.5 ”删除 文档 
Delete API 允许 基于 指定 的 id 从 索引 库 中 删除 一 个 文档 , 删除 文档 blog/article/1 的 命令 如 下 : 


DELETE blog/article/1 
删除 成 功 后 ，Elasticsearch 返回 信息 中 会 给 出 删除 操作 的 响应 结果 ， 格 式 如 下 : 


"found": true, 

" index": "blog", 

" type": "article", 
"m xg"; wp", 

" version"; 1, 
"result"; "deleted", 


" shards": ( 
"total"; 1, 
"successful": 1, 
"failed": 0 


} 
如 果 在 索引 文档 时 指定 了 路 由 ， 删 除 时 也 可 以 增加 路 由 参数 ， 命 令 如 下 : 


DELETE blog/article/1?routing=user123 
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请 注意 ， 如 果 执 行 删除 操作 时 路 由 值 不 正确 ， 会 导致 文档 删除 失败 。 当 映射 的 _routing 被 
WEA required 且 没 有 指定 的 路 由 值 时 ， 执 行 删 除 操作 将 抛 出 路 由 缺失 异常 并 拒绝 该 请 求 。 
5.2.6 ”查询 删除 

Delete By Query API 可 以 实现 根据 查询 条 件 删除 文档 , 在 查询 删除 执行 期 间 , 依次 执行 多 
个 搜索 请 求 ， 以 便 找 到 要 删除 的 所 有 匹配 文档 。 每 次 发 现 一 批文 档 时 ,执行 相应 的 批量 请 求 以 


删除 所 有 这 些 文档 。 
通过 Delete By Query API 删除 title 中 含有 Java 关键 字 的 文档 ， 命 令 如 下 : 


POST blog/_delete_by query 
{ 
"query": { 
"term": { 
"title":"hibernate" 
) 
) 
) 


删除 一 个 type 下 的 所 有 文档 ， 命 令 如 下 : 


POST blog/csdn/ delete by query 
{ 
"query": { 
"match all": {} 
} 
} 


5.2.7 ”批量 操作 


如 果 文 档 数 量 非常 大 ， 一 个 一 个 操作 文档 显然 不 太 符合 实际 ，Elasticsearch 提供 了 文档 的 
批量 操作 机 制 ， 通 过 Bulk API 可 以 执行 批量 索引 、 批 量 删 除 、 批 量 更 新 等 操作 。 就 像 mget 
允许 一 次 性 检索 多 个 文档 一 样 ，Bulk API 允许 使 用 单一 请 求 来 实现 多 个 文档 的 create. index, 
update 或 delete。Bulk API 的 使 用 方法 如 下 : 


CET) 创建 一 个 JSON 文 件 。 
EEO? 文件 中 写 入 多 个 请 求 操作 ， 请 求 的 格式 如 下 : 


action and meta data\n 
optional_source\n 


action_and_meta_data\n 
optional_source\n 
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ED 执行 操作 

curl -XPOST 'localhost:9200/indexname/_bulk?pretty' --data-binary 
@accounts.json 

下 面 对 请 求 的 格式 做 详细 的 解释 。 每 一 行 的 结尾 处 都 必须 有 换行 字符 "m"， 最 后 一 行 也 要 
有 ， 换 行 符 可 以 有 效 地 分 隔 每 行 。 另 外 ， 这 些 行 里 不 能 包含 非 转 义 字符 ， 以 免 干 扰 数据 解析 。 

action and meta data 行 指定 了 将 要 在 哪个 文档 中 执行 什么 操作 , 其 中 action 必须 是 index、 
create, update 或 者 delete, metadata 需要 指明 需要 被 操作 文档 的 _index、_type 以 及 _id。 

例如 创建 文档 命令 就 可 以 这 样 填写 : 


i "index": { " index": "blog", " type": "article", " id": "1" }} 


{i "title": "blog title " } 

也 可 以 这 样 写 : 
"create": { " index": " blog ", " type": " article ", " id"; "1" }} 
Wh "blog title " } 


区 别 是 如 果 文 档 blog / article /1 已 存在 ，create 会 创建 失败 ，index 不 会 。 
如 果 不 设 置 文档 id 的 话 ，Elasticsearch 会 自动 创建 ， 下 面 这 种 省 略 id 的 写法 也 是 可 行 的 : 


"index": { " index": " blog ", " type": " article " }} 


"title": "blog title " } 

delete 请 求 格式 如 下 : 

"delete": " index"; "website", " type": "blog", " id"; "123" }} 

新 建 一 个 blogjson， 写 入 以 下 内 容 ， 包 含 索 引文 档 请 求 、 更 新 文档 请 求 和 删除 文档 请 求 : 
"delete": " index"; "website", "_type": "blog", " id"; "123" }} 
"create"; " index": "website", " type": "blog", " id": "123" ]) 
"title"; "My first blog post" ) 

"index": { " index": "website", " type": "blog" }} 
"title": "My second blog post" } 
"update": " index": "website", " type": "blog", " id": "123", 


" retry on conflict" : 3) ] 
"doc" : ("title" : "My updated blog post") } 


执行 命令 : 
curl -XPOST "http://localhost:9200/website/ bulk?pretty" --data-binary 


@blog.json 


Elasticsearch 响应 包含 一 个 items 数组 ， 它 罗列 了 每 一 个 请 求 的 结果 ， 结 果 的 顺序 与 请 求 
的 顺序 相同 : 
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MEOOK™ $ LIO; 


"errors" : false, 
"items" : [ 
{ 
"delete" : { 
"found" : false, 
" index" : "website", 


" type" : "blog", 


"quw ow129"7 

" version" : 1, 

"result" : "not found", 

" shards" è { 
"total": 2, 
"successful" : 1, 
"failed" : 0 

) 

"status" : 404 


"create" : ( 


" index" : "website", 


type" : "blog", 


nias 
version" : 2, 
"result" "created", 
" shards" : ( 
"total" ; 2, 
"successful" : 1, 
"failed" : 0 
) 
"created" : true, 


"status" : 201 
) 
) 
{ 
"index" : { 
" index" : "website", 
" type" : "blog", 
" id" : "AVAOkH3vpTAtvdgRj4Kv", 
" version" : 1, 


"result" : "created", 
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shards” » 4 
"LOLOYT $ 2; 
"successful" : 


"failed" : 0 


te 


"created" : true, 
"status" : 201 


} 
}, 
{ 


"update" : { 

" index" : "website" 

" type" : "blog", 

" dd" la 

" version" : 3, 

"result" : "updated", 

" shards" » { 
"total"-: 2, 
"successful" : 
"failed" : 0 


Fe 


"status" : 200 


} 
} 
] 
} 


使 用 Bulk 操作 需要 注意 一 次 提交 请 求 文件 的 大 小 ， 整 个 批量 请 求 需要 被 加 载 到 接受 请 求 
节点 的 内 存 里 ， 所 以 请 求 越 大 , 给 其 他 请 求 可 用 的 内 存 就 越 小 。 有 一 个 最 佳 的 Bulk 请 求 大 小 ， 
超过 这 个 大 小 , 性 能 不 再 提升 而 且 可 能 降低 。 最 佳 大 小 不 是 一 个 固定 的 数字 , 它 完全 取决 于 服 
务 器 的 硬件 、 文档 的 大 小 和 复杂 度 以 及 索引 和 搜索 的 负载 。 幸运 的 是 , 这 个 最 佳 点 (sweetspot) 
还 是 容易 找到 的 ， 可 以 采用 如 下 方式 : 试 着 批量 索引 标准 的 文档 ， 随 着 大 小 的 增长 ， 当 性 能 开 
始 降低 ， 说 明 你 每 个 批 次 的 大 小 太 大 了 。 开 始 的 数量 可 以 在 1000-5000 个 文档 之 间 ， 如 果 你 
的 文档 非常 大 ,可 以 使 用 较 小 的 批 次 。 通 常 着 眼 于 你 请 求 批 次 的 物理 大 小 是 非常 有 用 的 。 一 千 
个 1KB 的 文档 和 一 千 个 IMB 的 文档 大 不 相同 。 一 个 好 的 批 次 最 好 保持 在 5-15MB 之 间 。 


5.2.8 ”版 本 控制 


当 我 们 使 用 Elasticsearch 的 API 进行 文档 更 新 的 时 候 整 个 过 程 如 下 : 首先 读 取 源 文档 , 对 


原文 档 进行 更 新 操作 ,更 新 操作 执行 完成 以 后 再 如 
后 保存 在 Elasticsearch 中 的 是 最 后 一 次 更 新 后 的 文档 。 但 是 如 果 有 两 个 线程 同时 修改 一 个 文 


档 ， 这 时 候 就 会 发 生 冲 突 。 


如 图 5-3 所 示 , 假设 一 件 商品 的 数量 是 100, 用户 A 买 走 了 一 件 , 与 此 同时 ， 用户 B 也 执 


外 新 索引 整个 文档 。 不论 执行 多 少 次 更 新 ， 最 
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行 了 下 单 操作 , 但 是 B 并 不 知道 A 也 在 下 单 ， 最 终 会 返回 商品 还 有 99 件 , 这 样 会 造成 系统 中 
显示 的 商品 数量 比 实际 数量 要 多 ， 这 种 情况 在 商业 系统 中 是 不 能 容忍 的 。 


Web-1 Web-2 
ye s 
EN E 

~ Ea 
EB —7 
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不 对 并 发 冲突 进行 控制 ， 有 时 候 不 会 造成 太 大 影响 。 一 个 常见 的 场景 是 使 用 关系 型 数据 
库 做 主 存储 ， 使 用 Elasticsearch 做 检索 引擎 ， 因 关系 型 数据 库 中 有 保护 数据 一 致 性 的 机 制 ， 只 
需要 在 Elasticsearch 中 使 数据 可 搜索 ; 或 者 偶尔 的 数据 丢失 不 会 对 业务 造成 影响 ， 比 如 对 上 亿 
条 数据 做 数据 分 析 , 丢失 一 两 条 数据 对 整个 结果 不 会 有 太 大 影响 。 但 在 要 求 数据 强 一 致 性 的 业 
务 中 缺少 并 发 控制 就 会 带 来 隐患 ， 仍 然 需 要 控制 。 

那么 如 何 进行 并 发 控制 ? 在 数据 库 领域 ， 确 保 在 并 发 更 新 时 数据 不 会 丢失 的 方法 主要 有 
以 下 两 种 : 


1. 悲观 锁 控 制 


顾名思义 ， 就 是 很 悲观 ， 每 次 去 拿 数 据 的 时 候 都 认为 别人 会 修改 ， 屏 蔽 一 切 有 可 能 违反 
数据 完整 性 的 操作 。 翡 观 锁 控 制 在 关系 型 数据 库 中 被 广泛 应 用 , 这 种 方式 假定 冲突 是 有 可 能 发 
生 的 。 如果 有 线程 对 数据 进行 修改 就 对 数据 进行 锁定 , 其 他 线程 想 要 访问 需要 等 待 当前 锁定 释 
放 , 这 样 可 确保 同一 时 刻 最 多 只 有 一 个 线程 访问 数据 。 传统 的 关系 型 数据 库 就 用 到 了 很 多 这 种 
锁 机 制 ， 比 如 行 锁 、 表 锁 、 读 锁 、 写 锁 等 。 


2. 乐观 锁 控 制 


顾名思义 ， 就 是 很 乐观 ， 每 次 去 拿 数 据 的 时 候 都 认为 别人 不 会 修改 ， 假 定 不 会 发 生 并 发 
访问 冲突 ， 对 数据 资源 不 会 锁定 ， 只 有 在 数据 提交 操作 时 检查 是 否 违 反 数 据 完整 性 。 
Elasticsearch 使 用 的 就 是 乐观 锁 机 制 , 乐观 锁 适 用 于 读 操作 比较 多 的 应 用 类 型 , 可 省 去 锁 开销 ， 
可 以 提高 吞吐 量 。 

Elasticsearch 是 一 个 分 布 式 系统 ， 当 文档 被 创建 、 更 新 、 删 除 ， 新 版 本 的 文档 必须 要 复制 
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到 集群 中 的 其 他 节点 。Elasticsearch 也 是 异步 并 发 的 ， 这 意味 着 复制 请 求 会 被 并 行 发 送 ， 也 意 
味 着 请 求 不 是 按 顺序 到 达 的 ，Elasticsearch 需要 一 种 方式 确保 旧版 本 的 文档 不 会 覆盖 较 新 版 本 
的 文档 。 

我 们 在 前 面 对 文档 进行 索引 时 提 到 ， 文 档 每 被 修改 一 次 ， 文 档 版 本 号 会 自 增 一 次 。 
Elasticsearch 使 用 _version 字段 确保 所 有 的 更 新 都 有 序 进行 。 如 果 一 个 低 版 本 的 文档 在 一 个 高 
版 本 的 文档 之 后 到 达 ， 那 么 旧版 本 的 文档 会 被 忽略 。Elasticsearch 的 文档 版 本 控制 机 制 主要 有 
内 部 版 本 控制 和 外 部 版 本 控制 , 内 部 版 本 控制 机 制 要 求 每 次 操作 请 求 , 只 有 当 版 本 号 相等 时 才 
能 操作 成 功 ， 外 部 版 本 控制 要 求 外 部 文档 版 本 比 内 部 文档 版 本 高 时 才能 更 新 成 功 。 下 面 通过 有 具 
体 实例 演示 一 遍 。 

首先 ， 创 建 一 个 索引 : 

PUT website 

添加 一 个 文档 : 

PUT /website/blog/1 

{ 

"title": "My first blog entry", 


"text": "Just trying this out..." 
} 


查看 刚 索引 的 文档 ; 
GET /website/blog/1 
返回 结果 : 

{ 


" index": "website", 


" type": "blog", 

s ages npe, 

" version": 1, 

"found": true, 

" source": { 
"title": "My first blog entry", 
"text": "Just trying this out..." 

} 

} 


可 以 看 到 ， 成 功 索 引 了 一 个 文档 ， 文 档 版 本 为 1， 再 更 新 该 文档 的 标题 : 


POST website/blog/1/_update 
{ 

"script": "ctx. source.title=\"Update My first blog\"" 
J 
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此 时 文档 版 本 已 变 为 >。 如果 再 查看 该 文档 并 指定 文档 版 本 为 1， 会 发 生 版 本 冲突 异常 ， 
带 版 本 号 的 获取 文档 命令 如 下 : 


GET website/blog/l?version-1 


在 更 新 文档 时 可 以 指定 外 部 文档 的 版 本 号 ， 如 果 外 部 版 本 不 高 于 当前 文档 版 本 ， 同 样 会 
发 生 异 常 。 只 有 外 部 版 本 比 当前 文档 版 本 高 ， 更 新 操作 才能 成 功 执行 。 


PUT website/blog/l?version-5&version type-external 
{ 

"title": "My blog entry ", 

"text": " Starting to get the hang of this..." 
} 


5.2.9 路 由 机 制 


Elasticsearch 是 一 个 分 布 式 系统 , 当 索 引 一 个 文档 时 文档 会 被 存储 到 master 节点 上 的 一 个 
主 分 片上 。 那 么 Elasticsearch 是 如 何 知 道 文 档 属于 哪个 分 片 的 呢 ? 再 有 当 你 创建 一 个 新 文档 ， 
Elasticsearch 是 如 何 知 道 应 该 存储 在 分 片 1 还 是 分 片 2 上 ? 要 想 回答 这 些 问题 ， 就 需要 了 解 
Elasticsearch 的 路 由 机 制 。Elasticsearch 的 路 由 机 制 即 是 通过 哈 希 算法 ， 将 具有 相同 哈 希 值 的 
文档 放置 到 同一 个 主 分 片 中 ， 分 片 位 置 计算 方法 : 


shard = hash(routing) $ number of primary shards 


routing 值 可 以 是 一 个 任意 字符 串 ，Elasticsearch 默认 将 文档 的 id 值 作为 routing 值 ， 通 过 哈 
希 函 数 根据 routing 字符 串 生 成 一 个 数字 ， 然 后 除 以 主 切 片 的 数量 得 到 一 个 余数 (remainder) , 
余数 的 范围 永远 是 0 到 number_of_primary_shards -1， 这 个 数字 就 是 特定 文档 所 在 的 分 片 。 这 种 
算法 基本 上 会 保持 所 有 数据 在 所 有 分 片上 的 一 个 平均 分 布 , 而 不 会 造成 数据 分 配 不 均衡 的 情况 。 

也 可 以 自 定义 routing 值 。 默 认 的 路 由 模式 可 以 保证 数据 平均 分 布 ， 文 档 分 配 算法 对 我 们 
来 说 是 透明 的 ， 很 多 时 候 性 能 也 不 是 问题 。 自 定义 routing 值 在 深入 理解 数据 特征 之 后 ， 能 够 
带 来 很 多 使 用 上 的 方便 和 性 能 上 的 提升 。 

假设 存在 一 个 有 50 个 分 片 的 索引 ， 在 集群 上 执行 一 次 查询 的 过 程 如 下 : 


(1) 查询 请 求 首先 被 集群 中 的 一 个 节点 接收 。 

(2) 接收 到 这 个 请 求 的 节点 ， 将 这 个 查询 广播 到 这 个 索引 的 每 个 分 片上 。 
(3) 每 个 分 片 执行 完 搜索 查询 并 返回 结果 。 

(4) 结果 在 通道 节点 上 合并 、 排 序 并 返回 给 用 户 。 


默认 情况 下 ，Elasticsearch 使 用 文档 的 id 将 文档 平均 分 布 于 所 有 的 分 片上 ， 这 导致 了 
Elasticsearch 不 能 确定 文档 的 位 置 ， 所 以 它 必 须 将 这 个 请 求 广播 到 所 有 的 50 个 分 片上 去 执行 。 
主 分 片 的 数量 在 索引 创建 的 时 候 是 固定 的 ， 并 且 永 远 不 能 改变 。 因 为 如 果 分 片 的 数量 改变 了 ， 
所 有 先前 的 路 由 值 就 会 变 成 非法 ,文档 相当 于 丢失 了 。 使 用 自 定义 的 路 由 模式 ， 可 以 使 查询 更 
有 具 目 的 性 。 你 不 必 盲 目地 去 广播 查询 请 求 ， 而 是 要 告诉 Elasticsearch 你 的 数据 在 哪个 分 片上 。 
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Elasticsearch 的 index. get. mget. delete. update 等 文档 API 都 可 以 接收 一 个 routing & 
数 ， 以 索引 文档 为 例 ， 执 行 index 操作 时 给 文档 设置 一 个 routing 参数 ， 具 有 相同 routing 的 文 
档 会 被 分 配 到 同一 个 分 片上 。 示 例如 下 : 

PUT /website/blog/1?routing=user123 

{ 

"title": "My first blog entry", 
"text": "Just trying this out..." 

} 

上 述 命 令 索引 了 一 条 文档 到 Elasticsearch 中 ， 并 指定 routing 为 user123， 代 表 user123 发 
布 的 所 有 博客 。 如 果 想 要 查询 userl23 发 布 了 哪些 博客 ， 可 以 通过 routing 值 进行 过 滤 ， 这 样 
可 以 避免 Elasticsearch 向 所 有 分 片 都 发 送 查 询 请 求 ， 大 大 减少 系统 的 资源 。 带 routing 参数 的 
查询 命令 如 下 : 

GET /myblog/_search?routing=user123 

需要 注意 的 是 ， 可 以 为 文档 指定 多 个 路 由 值 ， 路 由 值 之 间 使 用 逗号 隔 开 。 

使 用 自 定义 routing 值 也 会 造成 一 些 潜在 的 问题 ， 比 如 user123 本 身 的 文档 就 非常 多 ， 有 
数 十 万 个 ， 而 其 他 大 多 数 的 用 户 只 有 几 个 文档 ， 这 样 的 话 就 会 导致 user123 所 在 的 分 片 较 大 ， 
出 现 数据 偏 移 的 情况 , 特别 是 多 个 这 样 的 用 户 处 于 同一 分 片 的 时 候 现象 会 更 明显 。 有 具体 的 使 用 
还 是 要 结合 实际 的 应 用 场景 来 选择 。 


5.3 有 映射 详解 


映射 也 就 是 Mapping, 用 来 定义 一 个 文档 以 及 其 所 包含 的 字段 如 何 被 存储 和 索引 ， 可 以 在 
映射 中 事先 定义 字段 的 数据 类 型 、 分 词 器 等 属性 。 在 关系 型 数据 库 中 创建 数据 表 时 会 设置 字段 
的 类 型 ， 如 下 SQL 语句 所 示 ， 创 建 一 个 Student K: 

CREATE TABLE Student ( 

id INT NOT NULL AUTO_INCREMENT, 
name VARCHAR(10) NOT NULL, 
PRIMARY KEY (stuid) 

) 

Elasticsearch 创建 索引 时 同样 可 以 设置 字段 的 属性 ,作用 是 使 索引 的 配置 更 加 灵活 和 完善 ， 
可 以 在 Mapping 中 设置 字段 的 类 型 、 字 段 的 权重 等 信息 。 


5.3.1 映射 分 类 


映射 可 分 为 动态 映射 和 静态 映射 。 在 关系 型 数据 库 中 写 入 数据 之 前 首先 要 建 表 , 在 建 表 语 
句 中 声明 字段 的 属性 ， 在 Elasticsearch 中 则 不 必 如 此 ，Elasticsearch 最 重要 的 功能 之 一 就 是 让 
你 尽 可 能 快 地 开始 探索 数据 ， 文 档 写 入 Elasticsearch 中 ， 它 会 根据 字段 的 类 型 自动 识别 ， 这 种 
机 制 称 为 动态 映射 ， 而 静态 映射 则 是 写 入 数据 之 前 对 字段 的 属性 进行 手工 设置 。 
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5.3.2 ”动态 映射 


动态 映射 是 一 种 偷懒 的 方式 ， 可 直接 创建 索引 并 写 入 文档 ， 文 档 中 字段 的 类 型 是 
Elasticsearch 自动 识别 的 ， 不 需要 在 创建 索引 的 时 候 设 置 字段 的 类 型 。 在 实际 项 目 中 ， 如 果 遇 
到 的 业务 在 导入 数据 之 前 不 确定 有 哪些 字段 , 也 不 清楚 字段 的 类 型 是 什么 , 使 用 动态 映射 非常 
合适 。 当 Elasticsearch 在 文档 中 碰 到 一 个 以 前 没 见 过 的 字段 时 ， 它 会 利用 动态 映射 来 决定 该 字 
段 的 类 型 , 并 自动 把 该 字段 添加 到 映射 中 , 根据 字段 的 取 值 自动 推测 字段 类 型 的 规则 见 表 5-1。 


表 5-1 Elasticsearch 自 动 推测 字段 类 型 的 规则 


JSON 格式 的 数据 自动 推测 的 字段 类 型 

null 没有 字段 被 添加 

true or false boolean 类 型 

浮 点 类 型 数字 float 类 型 

数字 long 类 型 

JSON 对 象 object 类 型 

数组 由 数组 中 第 一 个 非 空 值 决定 

string 有 可 能 是 date 类 型 (开启 日 期 检测 )、double EÈ long 类 型 、text 类 型 、keyword 类 型 


下 面 举 一 个 例子 认识 动态 Mapping， 在 Elasticsearch 中 创建 一 个 新 的 索引 并 查看 它 的 


Mapping， 命 令 如 下 : 


PUT books 


GET books/_mapping 


此 时 books 索引 的 Mapping 是 空 的 ， 返 回 结果 如 下 : 


{ 


"books": 


"mappings": 


} 
} 


{} 


再 往 books 索引 中 写 入 一 条 文档 ， 命 令 如 下 : 


PUT books/it/1 


{ 
"id"ii, 


"publish date":"2017-06-01", 


"name":"master Elasticsearch" 


) 
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文档 写 入 完成 以 后 ， 再 次 查看 Mapping， 返 回 结果 如 下 : 


"books": { 
"mappings": { 
"it": ( 


"properties": ( 
"id"; [ "type": "long"jy 
"name": { 
"type": "text", 
"fields": ( 
"keyword": ( 
"type": "keyword", 
"ignore above": 256 
) 
) 
}, 
"publish date": { "type": "date"} 


id. publish date. name 三 个 字段 分 别 被 推测 为 long KAY. date 类 型 和 text 类 型 ， 这 就 是 
动态 Mapping 的 功劳 。 

使 用 动态 Mapping 要 结合 实际 业务 需求 来 综合 考虑 , 如 果 将 Elasticsearch 当 作 主要 的 数据 
存储 使 用 ， 并 且 和 希望 出 现 未 知 字 段 时 抛 出 异常 来 提醒 你 注意 这 一 问题 ,那么 开启 动态 Mapping 
并 不 适用 。 在 Mapping 中 可 以 通过 dynamic 设置 来 控制 是 否 自动 新 增 字 段 ， 接 受 以 下 参数 : 


e true 默认 值 为 true， 自 动 添加 字段 。 
e false 忽略 新 的 字段 。 
e strict ”严格 模式 ， 发 现 新 的 字段 抛 出 异常 。 


下 面 通过 例子 和 实际 操作 来 学 习 dynamic 控制 新 增 字段 的 方法 。 创 建 一 个 books 索引 并 指 
定 Mapping， 设 置 it 类 型 下 dynamic 属性 的 取 值 为 strict， 也 就 是 说 ，it 类 型 下 的 文档 中 出 现 
Mapping 中 没有 定义 的 字段 会 抛 出 异常 ， 命 令 如 下 : 

PUT books 

{ 

"mappings": { 
sit". f 
"dynamic": "strict", 


"properties": ( 
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ws 4 
"type": "text" 

}, 

"publish date": { 
"type": "date" 


写 入 三 个 文档 : 
PUT books/it/1 
{ 
"title": "master Elasticsearch", 


"publish date":"2017-06-01" 
) 
PUT books/it/2 
t 


"title": "master Elasticsearch" 
) 
PUT books/it/3 
( 
"title": "master Elasticsearch", 
"publish date":"2017-06-01", 
"author":"Tom" 
) 
文档 books/i/1 和 books/i/2 会 创建 成 功 ，books/it/3 中 出 现 了 新 的 字段 author， 该 字段 在 
Mapping 中 并 没有 定义 ， 会 抛 出 strict_dynamic_mapping_exception 异常 。 
5.3.3 “日 期 检测 
当 Elasticsearch 碰 到 一 个 新 的 字符 串 类 型 的 字段 时 , 它 会 检查 这 个 字符 串 是 否 包 含 一 个 可 
识别 的 日 期 ， 比 如 2014-01-01。 如 果 看 起 来 像 日 期 ， 那 么 它 会 被 识别 为 一 个 date 类 型 的 字段 ， 
否则 会 将 它 作 为 string 字段 进行 添加 。 这 种 自动 检测 机 制 有 时 会 导致 一 些 问题 , 假设 一 种 情况 ， 
比如 索引 一 份 这 样 的 文档 到 Elasticsearch 中 : 
{ "note": "2014-01-01" } 
如 果 note 字段 第 一 次 被 发 现 ， 那 么 根据 规则 它 会 被 作为 date 字段 添加 。 但 是 如 果 下 一 份 
文档 是 这 样 的 : 


{ "note": "Logged out" } 
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这 时 该 字段 显然 不 是 日 期 类 型 ， 但 是 已 经 太 迟 了 。 该 字段 的 类 型 已 经 是 日 期 类 型 的 字段 
了 ， 因 此 这 会 导致 一 个 异常 被 抛 出 。 可 以 通过 在 根 对 象 上 将 date detection 设置 为 false 来 关闭 


日 期 检测 ， 命 令 如 下 : 


PUT /my_index 
{ 
"mappings": { 
"my type": 


"date detection": false 


) 


) 


有 了 以 上 的 映射 , 一 个 字符 串 总 是 会 被 当 作 string 类 型 。 如 果 需 要 新 增 一 个 date 类 型 的 字 


段 ， 需 要 手动 添加 。 
5.3.4 ”静态 映射 


静态 映射 是 在 创建 索引 时 手工 指定 索引 映射 , 和 SQL 中 在 建 表 语句 中 指定 字段 属性 类 似 。 
相 比 动态 映射 ， 通 过 静态 映射 可 以 添加 更 详细 、 更 精准 的 配置 信息 ， 例 子 如 下 : 


PUT my_index 
{ 
"mappings": { 
"user"; { 
Ss 


"properties": 


"title"; 
"name": 
"age": 
) 
}, 
"blogpost": { 
A addas 


"properties": 


"title"; 
"body": 
"user id": 
"type": 
}, 
"created": 
"type": 


"enabled": false } 
t 

"type": "text" } 
"type": "text" }, 


"type": "integer" } 


"enabled": false }, 
{ 
"type": "text" ), 
"type": "text" ), 
t 
"keyword" 
{ 
"date", 
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"format": "strict date optional time||epoch millis" 


5.3.5 “字段 类 型 
Elasticsearch 字段 类 型 主要 有 核心 类 型 、 复 合 类 型 、 地 理 类 型 和 特殊 类 型 ， 具 体 分 类 见 表 5-2。 
表 5-2 Elasticsearch 字 段 类 型 


一 级 分 类 二 级 分 类 具体 类 型 
字符 串 类 型 string、text、keyword 
数字 类 型 long. integer, short, byte. double, float, half float, scaled float 
— 日 期 类 型 date 
布尔 类 型 boolean 
二 进 制 类 型 binary 
范围 类 型 range 
数组 类 型 array 
复合 类 型 对 象 类 型 object 
WEKE nested 
m"— 地 理 坐 标 geo_point 
地 理 图 形 geo_shape 
Ip 类 型 ip 
范围 类 型 completion 
特殊 类 型 令 牌 计数 类 型 token_count 
附件 类 型 attachment 
抽取 类 型 percolator 
1. string 


Elasticsearch 5.X 之 后 的 字段 类 型 不 再 支持 string， 由 text 或 keyword 取代 。 如 果 仍 使 用 


string， 会 给 出 警告 。 


2.text 

如 果 一 个 字段 是 要 被 全 文 搜索 的 ， 比 如 邮件 内 容 、 产 品 描述 、 新 闻 内 容 ， 应 该 使 用 text 
类 型 。 设 置 text 类 型 以 后 ， 字 段 内 容 会 被 分 析 ， 在 生成 倒 排 索 引 以 前 ， 字 符 串 会 被 分 词 器 分 成 
一 个 一 个 词 项 。text 类 型 的 字段 不 用 于 排序 ， 很 少 用 于 聚合 (termsAggregation 除外 ) 。 
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把 full_name 字段 设 为 text 类 型 的 Mapping 如 下 : 


PUT my_index 
{ 
"mappings": { 
"my type": { 
"properties": ( 
"full name": ( 


"type": "text" 


3. keyword 


keyword 类 型 适用 于 索引 结构 化 的 字段 ， 比 如 email 地 址 、 主 机 名 、 状 态 码 和 标签 ， 通 常 
用 于 过 滤 ( 比 如 查找 已 发 布 博客 中 status 属性 为 published 的 文章 )、 排 序 、 聚 合 。 类 型 为 keyword 
的 字段 只 能 通过 精确 值 搜索 到 ， 区 别 于 text 类 型 。 

4. 数字 类 型 

数字 类 型 支持 byte. short, integer. long. float, double. half float 和 scaled_float， 它 们 
的 取 值 范围 见 表 5-3. 


表 5-3 ”数字 类 型 及 其 取 值 范围 


mm 
[rere [om | 


64 位 双 精 度 IEEE 754 浮 点 类 型 


integer -2^31 Æ 2^31-1 float 32 位 单 精度 IEEE 754 浮 点 类 型 
short | 32768 32 767 half float 16 位 半 精 度 IEEE 754 浮 点 类 型 
byte -128 至 127 scaled float 缩放 类 型 的 浮 点 数 


对 于 float、half float 和 scaled_float，-0.0 和 +0.0 是 不 同 的 值 ， 使 用 term 查询 查找 -0.0 不 
会 匹配 +0.0， 同 样 range 查询 中 上 边界 是 -0.0 不 会 匹配 +0.0， 下 边界 是 +0.0 不 会 匹配 -0.0。 


对 于 数字 类 型 的 字段 ， 在 满足 需求 的 情况 下 ， 要 尽 可 能 选择 范围 小 的 数据 类 型 。 比 如 ， 
某 个 字段 的 取 值 最 大 值 不 会 超过 100， 那 么 选择 byte 类 型 即 可 。 迄今 为 止 , 吉 尼 斯 世界 记录 的 
人 类 的 年 龄 的 最 大 值 为 134 岁 ， 对 于 年 龄 字段 ，short 足 矣 。 字 段 的 长 度 越 短 ， 索 引 和 搜索 的 
效率 越 高 。 

处 理 浮 点 数 时 ， 优 先 考虑 使 用 scaled float 类 型 。scaled_float 是 通过 缩放 因子 把 浮 点 数 变 
J long 类 型 ， 比 如 价格 只 需要 精确 到 分 ，price 字段 的 取 值 为 37.34， 设 置 放大 因子 为 100， 存 
储 起 来 就 是 5734。 所 有 的 API 都 会 把 price 的 取 值 当 作 浮 点 数 ， 事 实 上 Elasticsearch 底层 存储 
的 是 整数 类 型 ， 因 为 压缩 整数 比 压缩 浮 点 数 更 加 节省 存储 空间 。 
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数字 类 型 配置 映射 的 例子 如 下 : 


PUT my_index 
{ 
"mappings": { 
"my type": ( 
"properties": ( 
"number of bytes": { "type": "integer" }, 


"time in seconds": ( "type": 
"price": { 
"type": "scaled float", 
"scaling factor": 100 


5. date 
JSON 中 没有 日 期 类 型 ， 所 以 在 Elasticsearch 中 的 日 期 可 以 是 以 下 几 种 形式 : 


CD 格式 化 日 期 的 字符 串 ， 如 “2015-01-01” 或 “2015/01/01 12:10:30”。 

(2) 代表 milliseconds-since-the-epoch 的 长 整 型 数 Cepoch 指 的 是 一 个 特定 的 时 间 : 
1970-01-01 00:00:00 UTC) 。 

(3) 代表 seconds-since-the-epoch 的 整 型 数 。 


Elasticsearch 内 部 会 把 日 期 转换 为 UTC (世界 标准 时 间 ) ， 并 将 其 存储 为 表示 
milliseconds-since-the-epoch 的 长 整 型 数 。 日 期 格式 可 以 自 定义 ， 如 果 没 有 自 定义 ， 默 认 格式 如 下 : 


"strict date optional time||epoch millis" 
日 期 类 型 配置 映射 的 例子 如 下 : 


PUT my_index 
{ 
"mappings": { 
"my type": ( 
"properties": {"date": { "type": "date" }} 
) 


) 
写 入 3 个 文档 : 


PUT my index/my type/1 
i "date": "2015-01-01" } 
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PUT my index/my type/2 
{ "date": "2015-01-01T12:10:302" } 


PUT my index/my type/3 
{ "date": 1420070400001 } 


默认 情况 下 ， 以 上 3 个 文档 的 日 期 格式 都 可 以 被 解析 ， 内 部 存储 的 是 毫秒 计时 的 长 整 型 数 。 
6. boolean 


如 果 一 个 字段 是 布尔 类 型 ， 可 接受 的 值 为 true、false。Elasticsearch 5.4 版 本 以 前 ， 可 以 接 
受 被 解释 为 true BR false 的 字符 串 和 数字 ，5.4 版 本 以 后 只 接受 true、false、“true”、“false”。 
布尔 类 型 配置 映射 的 例子 如 下 : 


PUT my_index 
{ 
"mappings": { 
"my type": { 
"properties": ( 
"is published": { "type": "boolean" } 
) 


) 
写 入 三 条 文档 : 


POST my_index/my_type/1 
{ 

"is published": true 
} 


POST my_index/my_type/2 
{ 

"is published": "true" 
) 
POST my index/my type/3 
{ 

"is published": false 
} 


执行 以 下 搜索 ， 文 档 1 和 文档 2 都 可 以 被 搜索 : 


GET my_index/_search 
{ 
"query": { 
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"term": { "is published": true} 
} 
} 


7. binary 


binary 类 型 接受 base64 编 码 的 字符 串 , 默 认 不 存储 (这 里 的 存储 是 指 store 属性 取 值 为 false) 
也 不 可 搜索 。 
布尔 类 型 配置 映射 的 例子 如 下 : 


PUT my_index 
{ 
"mappings": { 
"my type": { 
"properties": ( 


"name": ( "type": "text" }, 
"blob": ( "type": "binary") 
) 
) 
) 
) 


写 入 一 条 文档 ， 其 中 blob 的 值 为 字符 串 “Some binary blob” ”的 Base64 编码 : 


PUT my_index/my_type/1 
{ 
"name": "Some binary blob", 
"blob": "U29tZSBiaWShcnkgYmxvYg==" 
} 


8. array 


Elasticsearch 没有 专用 的 数组 类 型 ， 默 认 情况 下 任何 字段 都 可 以 包含 一 个 或 者 多 个 值 ， 但 
是 一 个 数组 中 的 值 必须 是 同一 种 类 型 。 例 如 : 


CD 字符 数组 : [“one”, “two” ] 

(2) 整 型 数组 : [1, 3] 

(3) 媒 套 数组 : [1，[2，3]], 等 价 于 [1，2，3] 

(4) 对 象 数组 : [ { "name": "Mary", "age": 12 }，{ "name": "John"，"age": 10 }] 


动态 添加 数据 时 ， 数 组 的 第 一 个 值 的 类 型 决定 整个 数组 的 类 型 。 混 合 数组 类 型 是 不 支持 
的 ， 比 如 : [1，“abc”]。 数 组 可 以 包含 null 值 ， 空 数组 [ ] 会 被 当 作 missing field 对 待 。 

在 文档 中 使 用 array 类 型 不 需要 提前 做 任何 配置 ， 默 认 支持 。 例 如 写 入 一 条 带 有 数组 类 
型 的 文档 ， 命 令 如 下 : 

PUT my index/my type/1 

{ 
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"message": "some arrays in this document...", 
"tags": [ "elasticsearch", "wow" ], 
"ISSESS n 
t 
"name": "prog list", 
"description": "programming list" 
ty 
{ 
"name": "cool list", 
"description": "cool stuff list" 


} 
搜索 lists 字段 下 的 name， 命 令 如 下 : 


GET my_index/_search 


{ 
"query": { 
"match": ("lists.name": "cool list") 


) 

9. object 

JSON 本 质 上 具有 层级 关系 ， 文 档 包含 内 部 对 象 ， 内 部 对 象 本 身 还 包含 内 部 对 象 ， 请 看 下 
面 的 例子 : 

PUT my_index/my_type/1 

{ 


"region": "US", 
"manager": { 
"age": 30). 
"name": { 
"first": "John", 
"last"; "Smith" 


) 
上 面 的 文档 中 ， 整 体 是 一 个 ISON HR, ISON 中 包含 一 个 manager X$4, manager X1 
又 包含 名 为 name 的 内 部 对 象 。 写 入 到 Elasticsearch 之 后 ,文档 会 被 索引 成 简单 的 扁平 key-value 
对 ， 格 式 如 下 : 
{ 
"region": "US", 
"manager.age": 30, 
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"manager.name.first": "John", 


"manager.name.last": "Smith" 


} 
上 面 文档 结构 的 显 式 映射 如 下 : 


PUT my_index 
{ 
"mappings": { 
"my type": { 
"properties": ( 
"region": ( 
"type": "keyword" 
}, 
"manager": { 
"properties": { 
"age": { "type": "integer" }, 
"name": ( 
"properties": ( 
"first"; £ "type"; "text" J; 
"last": { "type": "text" } 


10. nested 

nested 类 型 是 object 类 型 中 的 一 个 特例 , 可 以 让 对 象 数组 独立 索引 和 查询 。Lucene 没有 内 
部 对 象 的 概念 ， 所 以 Elasticsearch 将 对 象 层次 扁平 化 ， 转 化 成 字段 名 字 和 值 构成 的 简单 列表 。 

使 用 Object 类 型 有 时 会 出 现 问题 ， 比 如 文档 my_index/my_type/1 的 结构 如 下 : 


PUT my_index/my_type/1 
{ 
"group" : "fans", 
"user" 3 [ 
{ 
"first" : "John", 
"last" > "Smith" 
br 
{ 
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"first" 2 "Alice", 
"last" : “White” 
H 
1 
H 


user 字段 会 被 动态 添加 为 Object 类 型 ， 最 后 会 被 转换 为 以 下 平整 的 形式 : 
{ 


"group" : "fans", 
"user.first" : [ "alice", "john" J, 
"user.last" : [ "smith", "white" ] 


) 


user. first 和 user.last 扁平 化 以 后 变 为 多 值 字段 ，alice 和 white 的 关联 关系 丢失 了 。 执 行 以 
下 搜索 会 搜索 到 上 述 文档 : 


GET /my_index/_search 
{ 
"query": { 
"bool": { 
"must": [ 
( "match": ("user.first": "Alice"}}, 
("match": ("user.last": "Smith"}} 
] 
) 
) 
) 


事实 上 是 不 应 该 匹配 的 ， 如 果 需 要 索引 对 象 数组 并 避免 上 述 问题 的 产生 ,应 该 使 用 nested 
对 象 类 型 而 不 是 object 类 型 ，nested 对 象 类 型 可 以 保持 数组 中 每 个 对 象 的 独立 性 。Nested 类 型 
将 数组 中 每 个 对 象 作为 独立 隐藏 文档 来 索引 , 这 意味 着 每 个 嵌 套 对 象 都 可 以 独立 被 搜索 , 映射 
中 指定 user 字段 为 nested 类 型 : 


PUT /my_index 
{ 
"mappings": { 
"my type": { 
"properties": ( 
"user": { 


"type": "nested" 
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再 次 执行 上 述 查 询 语句 ， 文 档 不 会 被 匹配 。 

索引 一 个 包含 100 个 nested 字段 的 文档 实际 上 就 是 索引 101 个 文档 ， 每 个 嵌 套 文档 都 作 
为 一 个 独立 文档 来 索引 。 为 了 防止 过 度 定义 嵌 套 字段 的 数量 , 每 个 索引 可 以 定义 的 柑 套 字段 被 
限制 在 50 个 。 


11. geo point 
geo point 类 型 用 于 存储 地 理 位 置信 息 的 经 纬度 ， 可 用 于 以 下 几 种 场景 : 


查找 一 定 范围 内 的 地 理 位 置 。 

通过 地 理 位 置 或 者 相对 中 心 点 的 距离 来 聚合 文档 。 
把 距离 因素 整合 到 文档 的 评分 中 。 
通过 距离 对 文档 排序 。 


指定 location 字段 为 geo_point 类 型 ， 映 射 如 下 : 


PUT my_index 
{ 
"mappings": { 
"my type": { 
"properties": ( 


"location": {"type": "geo point") 
) 
) 
) 
) 


geo point 字段 接收 以 下 4 种 类 型 的 地 理 位 置 数据 ， 分 别 介绍 如 下 。 
(1) 经 纬度 坐标 键 值 对 
PUT my_index/my_type/1 


{ 
"text": "Geo-point as an object", 


"location": { 
"lat": 41.12, 
"lon": -71.34 

} 

) 


(2) 字符 串 格式 的 地 理 坐 标 参数 


PUT my index/my type/2 

t 
"text": "Geo-point as a string", 
"location": "41.12,-71.34" 

} 
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(3) 地 理 坐 标的 哈 希 值 


PUT my index/my type/3 

{ 
"text": "Geo-point as a geohash", 
"location": "drm3btev3e86" 


} 
(4) 数组 形式 的 地 理 坐标 


PUT my_index/my_type/4 

{ 
"text": "Geo-point as an array", 
"location": [ -71.34, 41.12 ] 

} 


12. geo_shape 


geo_point 类 型 可 以 存储 一 个 坐标 点 ，geo_shape 类 型 可 以 存储 一 块 区 域 ， 比 如 矩形 、 三 角 
形 或 者 其 他 多 边 形 。GeoJSON 是 一 种 对 各 种 地 理 数据 结构 进行 编码 的 格式 ， 对 象 可 以 表示 几 
何 、 特 征 或 者 特征 集合 ， 支 持 点 、 线 、 面 、 多 点 、 多 线 、 多 面 等 几何 类 型 。GeoJSON 里 的 特 
征 包含 一 个 几何 对 象 和 其 他 属性 ， 特 征集 合 表示 一 系列 特征 。 想 了 解 更 多 关于 GeoJSON 的 资 
料 可 参考 《GeoJSON fi SCR 23 JEU] ) Chttp://www.oschina.net/translate/geojson-spec ) . Elasticsearch 
使 用 GeoJSON 格式 来 表示 地 理 形 状 ， 类 型 说 明 见 表 5-4. 


表 5-4 Elasticsearch 地 理 形状 说 明 


一 个 单独 的 经 纬度 坐标 点 
任意 的 线条 ， 由 两 到 多 个 点 组 成 
Hi NH 个 点 组 成 的 封闭 N 边 形 
一 组 不 连续 但 有 可 能 相关 联 的 点 
多 条 不 关联 的 线 


LineString linestring 


Polygon 


MultiPoint multipoint 


MultiLineString multilinestring 


MultiPolygon multipolygon 多 个 不 关联 的 多 边 形 
GeometryCollection geometrycollection 几何 对 象 的 集合 
N/A envelope 由 左上 角 坐标 或 右 下 角 坐 标 确定 的 封闭 矩形 


NA 由 圆心 和 寺 


# 径 确定 的 圆 ， 默 认 单位 为 米 


circle 


下 面 通过 实例 演示 如 何 使 用 geo shape 类 型 。 首 先 创建 一 个 索引 ， 映 射 中 指定 location 字 
段 为 geo_shape 类 型 ， 命 令 如 下 : 
PUT geoshape 


{ 
"mappings": { 


"city":l 
"properties": ( 
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"location": { 


"type": "geo shape" 


) 
写 入 一 条 由 经 纬度 组 成 的 点 


POST geoshape/city/1 
{ 

"location": { 
"type": "point", 
"coordinates": [ 

-77.03653, 
38.897676 


} 
写 入 一 条 由 多 个 点 组 成 的 线 : 


POST geoshape/city/2 
{ 
"location" : ( 
"type" : "linestring", 
"coordinates" : [[-77.03653, 38.897676], [-77.009051, 


) 
写 入 一 条 首尾 封闭 的 多 边 形 : 


POST geoshape/city/3 
{ 
"location" : { 
"type" : "polygon", 
"coordinates" : [ 
[ (100.0, 0.0], [101.0, 0.0], [101.0, 1.0], [100.0, 
0.0) ] 


} 
写 入 多 个 多 边 形 : 


POST geoshape/city/4 


38.889939]] 


1.0], [100.0, 
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"Jocation" = 4 
"type" : "polygon", 
"coordinates" : [ 


[ [100.0, 0.0], [101.0, 0.0], [101.0, 1.0], [100.0, 1.0], 
[100.0, 0.0] 1, 

[ [100.2, 0.2], [100.8, 0.2], [100.8, 0.8], [100.2, 0.8], 
[100.2, 0.2] ] 


} 
13. ip 


ip 类 型 的 字段 用 于 存储 IPv4 或 者 IPv6 的 地 址 。 在 映射 中 指定 字段 为 ip 类 型 的 映射 和 查 
询 语 句 如 下 : 


PUT my_index 
{ 
"mappings": { 
"my type": { 
"properties": ( 
"ip addr": ("type": "ip"} 
) 


PUT my index/my type/1 
{ 

"ip addr": "192.168.1.1" 
) 


GET my index/ search 
t 
"query": ( 
"term": ( 
"ip addr": "192.168.0.0/16" 
} 


} 
14. range 


range 类 型 的 使 用 场景 包括 网 页 中 的 时 间 选 择 表单 、 年 龄 范围 
的 类 型 和 取 值 范围 见 表 5-5。 


选择 表单 等 , range 类 型 支持 


di 
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表 5-5 range 类 型 及 其 取 值 范围 


类 型 范 B 
integer range -231 至 2^31-1 
float_range 32-bit IEEE 754 
long_range -2^63 Æ 263-1 
double_range 64-bit IEEE 754 
date_range 64 位 整数 ， 毫 秒 计时 


下 面 代码 创建 了 一 个 range_index 索引 ，expected_attendees 字段 为 integer_range 类 型 ， 
time frame 字段 为 date_range 类 型 。 


PUT range_index 
{ 
"mappings": { 
"my type": { 
"properties": ( 
"expected attendees": { 
"type": "integer range" 
) 
"time frame": ( 
"type": "date range", 


"format": "yyyy-MM-dd HH:mm:ss|l|yyyy-MM-dd||epoch millis" 


) 


索引 一 条 文档 ，expected_attendees 的 取 值 为 10 到 20, time frame 的 取 值 是 2015-10-31 
12:00:00 至 2015-11-01， 命 令 如 下 。 


PUT range index/my type/1 
{ 


"expected attendees" : { 
"gte" : 10, 
"ilte" = 20 
}, 
"time frame" : { 
"gte" : "2015-10-31 12:00:00", 
"ite" © "2015-11-01" 
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15. token_count 


token count. 用 于 统计 字符 串 分 词 后 的 词 项 个 数 ， 本 质 上 是 一 个 整数 型 字段 。 举 个 例子 ， 
映射 中 指定 name 为 text 类 型 ， 增 加 name.length 字段 用 于 统计 分 词 后 词 项 的 长 度 ， 类 型 为 
token_count， 分 词 器 为 标准 分 词 器 ， 命 令 如 下 : 


PUT my_index 
{ 
"mappings": { 
"my type": ( 
"properties": ( 
"name": ( 
"type": "text", 
"fields": ( 
"length": ( 
"type": "token count", 


"analyzer": "standard" 


写 入 两 条 文档 做 测试 , 解析 后 第 一 条 文档 的 name.length 值 为 2, 第 二 条 文档 的 name.length 
值 为 3， 命 令 如 下 。 
PUT my_index/my_type/1 


"name": "John Smith" 


} 


PUT my index/my type/2 

{ 

"name": "Rachel Alice Williams" 
} 


搜索 测试 : 


GET my_index/_search 
{ 
"query": { 
"term": { 
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"name.length": 3 
H 
) 
H 


5.3.6 元 字段 


元 字段 是 映射 中 描述 文档 本 身 的 字段 ， 从 大 的 分 类 上 来 看 , 主要 有 文档 属性 的 元 字段 、 源 
文档 的 元 字段 、 索 引 的 元 字段 、 路 由 的 元 字段 和 自 定义 元 字段 ， 详 细 分 类 信息 见 表 5-6. 


表 5-6 ”Elasticsearch 元 字段 分 类 


元 字段 分 类 具体 属性 作用 
_index 文档 所 属 索引 
wid 包含 type 和 id 的 复合 字段 
文档 属性 的 元 字段 = or 
_id 文档 id 
J . source 文档 的 原始 ISON 字符 串 
meee _size _source 字段 的 大 小 
= all 包含 索引 全 部 字段 的 超级 字段 
Ke “field names | 文档 中 包 合 非 空 值 的 所 有 字段 
—M . parent 指定 文档 间 的 父子 关系 
di routing 将 文档 路 由 到 特定 分 片 的 自 定义 路 由 值 
自 定义 元 字段 meta 用 于 自 定义 元 数据 
1. index 


多 索引 查询 时 , 有 时 候 只 需要 在 特定 的 索引 名 上 进行 查询 ，index 字段 提供 了 便利 。index 
支持 对 索引 名 进行 term 查询 、terms 查询 、 聚 合 分 析 、 使 用 脚本 和 排序 。 

index 是 一 个 虚拟 字段 ， 不 会 真 的 加 到 Lucene 索引 中 ， 可 以 对 _index 进行 term, terms 
查询 (如 match. query string. simple query string) ， 但 是 不 支持 prefix. wildcard, regexp 
和 fuzzy 查询 。 举 例如 下 ， 有 index 1 和 index_2 两 个 索引 : 


PUT index 1/my type/1 
{ 
"text": "Document in index 1" 


) 


PUT index 2/my type/2?refresh-true 
{ 
"text": "Document in index 2" 


H 
按照 索引 名 进行 搜索 、 排 序 和 分 组 聚合 : 
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GET index 1,index 2/_search 
{ 
"query": { 
"terms": [" index": ["index 1", "index 2"] } 
) 
"aggs": { 
"indices": ( 
"terms": { 
"field": " index", 


"size": 10 


} 
}, 
"sort" [ 


( " index": { "order": "asc"}} 


) 


2. type 


每 条 被 索引 的 文档 都 有 一 个 _type 和 _id 字段 ， 可 以 根据 _type 进行 查询 、 聚 合 、 脚 本 和 排 
序 。 例 子 如 下 ，my_index 索引 下 有 两 个 type: 


PUT my_index/type_1/1 
{ 
"text": "Document with type 1" 


PUT my_index/type 2/2?refresh=true 
{ 

"text": "Document with type 2" 
} 


对 type 进行 搜索 、 排 序 和 分 组 聚合 : 


GET my_index/_search 
{ 
"query": { 
"terms": { 
" type": [ "type 1", "type 2" ] 
H 
) 
"aggs": ( 
"types": ( 
"terms": [ 
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"field": " type", 


"Size" 0 


) 
}, 
"sort"; [{ " type": { "order": “desc"}}] 
) 


3. id 


每 条 被 索引 的 文档 都 有 一 个 type 和 _id 字段 ，_id 可 以 用 于 term 查询 、terms fif, match 
查询 、query_string 查询 、simple_query_string 查询 ， 但 是 不 能 用 于 聚合 、 脚 本 和 排序 。 查 找 
my. index 索引 下 id 为 1 和 2 的 文档 ， 代 码 如 下 : 


GET my_index/_search 
{ 
"query": { 


"terms": (" id": [ "1", "2" ] ) 


) 
4. uid 


uid 是 type 和 _id 的 组 合 ， 取 值 为 ftypej#fid} 。 和 _type 一 样 ，_uid 也 可 用 于 查询 、 聚 合 、 
脚本 和 排序 。 对 _uid 进行 查询 、 排 序 和 分 组 聚合 ， 命 令 如 下 : 


GET my_index/_search 
{ 
"query": { 
"terms": { 
" uid": [ "my_type#1", "my type#2" ] 
) 
}, 
"aggs": ( 
"UIDs": ( 
"terms": { 
"field": " uid", 


"size"; 10 


) 
} 
el 
{ 


a aid’ i 
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5. source 


source 存储 文档 的 原始 值 ， 默 认 _source 字段 是 开启 的 ， 也 可 以 在 映射 中 通过 enabled 参 
数 关闭 : 
PUT tweets 
{ 
"mappings": { 
"tweet": { 
" source": { 
"enabled": false 
) 
) 
) 
) 


但 是 一 般 情 况 下 不 要 关闭 ， 因 为 update、update_by_query、reindex， 关 键 字 高 亮 ， 数 据 
备份 ， 改 变 mapping， 升 级 索引 。 通 过 原始 字段 debug 查询 或 者 聚合 等 诸多 操作 都 需要 用 到 
source 字段 中 存储 的 文档 原始 值 。 


6. size 


size 用 于 描述 文档 本 身 的 字 节 大 小 ， 默 认 是 不 支持 的 。 如 果 有 统计 文档 大 小 的 需求 ， 需 
要 安装 mapper-size 插件 ， 安 装 命令 如 下 : 


bin/elasticsearch-plugin install mapper-size 
然后 在 映射 中 开启 _size 字段 : 


PUT my_index 
{ 
"mappings": { 
"my type": ( 
" size": 4 
"enabled": true 
i] 
H 
H 
} 
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索引 文档 后 对 _size 进行 过 滤 : 
GET my_index/_search 
{ 
"query": { 
"range": { 
" Size"; { 
"gms 
$ 
} 
} 
} 


7. all 

all 字段 是 把 其 他 字段 拼接 在 一 起 的 超级 字段 ， 所 有 的 字段 内 容 用 空格 分 开 ，_all 字段 会 
被 解析 和 索引 ,但 是 不 存储 。 当 需要 返回 包含 某 个 关键 字 的 文档 , 但 是 不 明确 地 搜 某 个 字段 的 
时 候 ， 可 以 对 _all 字段 进行 搜索 。 例 子 如 下 : 


PUT my_index/blog/1 
{ 


"title": "Master Java", 
"content": "learn java", 
"author": "Tom" 


) 
all 字段 包含 :[ "Master", "Java", "learn", "Tom" ], Xf all 字段 进行 搜索 : 


GET my index/ search 
{ 
"query": { 
"match": { 
" all": "Java" 
) 
} 
} 


8. field names 


field names 字段 用 来 存储 文档 中 的 所 有 非 空 字段 的 名 字 ， 这 个 字段 常用 于 exists 查询 。 
例子 如 下 : 


PUT my index/my type/1 
t 
"title": "This is a document" 
} 
PUT my_index/my_type/2?refresh=true 
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"title": "This is another document", 
"body": "This document has a body" 


搜索 具有 body 字段 的 文档 : 


GET my_index/_search 
{ 


"query": { 


{ 
" field names": [ "body" ] 


"terms": 


) 
结果 会 返 
9. parent 


. parent 用 于 指定 同一 索引 中 文档 的 父子 关系 。 下 面 例子 中 先 在 mapping 中 指定 文档 的 父 
子 关 系 ， 然 后 索引 父 文档 ， 索 引子 文档 时 指定 父 id， 最 后 根据 子 文档 查询 父 文档 。 
PUT my_index 


{ 
"mappings": { 


El 


第 二 条 文档 ， 因 为 第 一 条 文档 只 有 title 字段 。 


"my parent": {}, 
"my child": ( 


" parent": ( 


: "my parent" 


PUT my index/my parent/1 
{ 
"text": "This is a parent document" 


} 


PUT my index/my child/2?parent-1 
{ 

"text": "This is a child document" 
} 


PUT my_index/my_child/3?parent=1&refresh=true 


{ 
"text": "This is another child document" 
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} 


GET my_index/my_parent/_search 
{ 
"query": { 
"has child": { 
"type": "my child", 
"query": ( 
"match": ( 
"text": "child document" 


10. routing 
路 由 参数 ，Elasticsearch 通过 以 下 公式 计算 文档 应 该 分 到 哪个 分 片上 : 
shard = hash(routing) $ number of primary shards 
默认 的 _routing 值 是 文档 的 _id BKA parent, iit routing 参数 可 以 设置 自 定义 路 由 ， 在 
5.2.9 小 节 中 已 经 讲 过 。 
在 Mapping 中 指定 routing 为 必需 的 : 
PUT my_index 
{ 
"mappings": { 
"my type": { 
" routing": { 
"required": true 


) 


} 

指定 文档 的 路 由 值 为 必需 的 之 后 ， 索 引文 档 必须 提供 路 由 参数 ， 否 则 会 报错 ， 测 试 命令 
如 下 : 

PUT my index/my type/1 


t 
"text": "No routing value provided" 


) 


5.3.7 ”映射 参数 
Elasticsearch 提供 了 足够 多 的 映射 参数 对 字段 的 映射 进行 参数 设置 ,一 些 常用 功能 的 实现 ， 
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比如 字段 的 分 词 器 、 字 段 的 权重 、 日 期 格式 、 检 索 模 型 的 选择 等 都 是 通过 映射 参数 来 配置 完成 
的 ， 下 面 一 一 介绍 各 个 参数 的 用 法 。 


1. analyzer 


analyzer 参数 用 于 指定 文本 字段 的 分 词 器 ， 对 索引 和 查询 都 有 效 。 分 词 器 会 把 文本 类 型 的 
内 容 转 换 为 若干 个 词 项 ,查询 时 分 词 器 同样 把 查询 字符 串通 过 和 索引 时 期 相同 的 分 词 器 或 者 其 
他 分 词 器 进行 解析 。 以 常用 的 IK 中 文 分 词 器 为 例 ， 对 于 content 字段 ，analyzer 参数 的 取 值 为 
这 _max_word， 意 味 着 content 字段 内 容 索 引 时 和 查询 时 都 使 用 ik max word 分 词 ， 配 置 映射 
的 命令 如 下 : 
PUT my_index 
{ 
"mappings": { 
"my type": { 
"properties": ( 
"content": ( 
"type": "text", 


"analyzer": "ik max word" 


search analyzer 


大 多 数 情况 下 索引 和 搜索 的 时 候 应 该 指定 相同 的 分 词 器 , 确保 query 解析 以 后 和 索引 中 的 
词 项 一 致 。 但 是 有 时 候 也 需要 指定 不 同 的 分 词 器 ， 例 如 ， 使 用 edge_ngram 过 滤器 实现 自动 补 
全 。 默 认 情况 下 查询 会 使 用 analyzer 属性 指定 的 分 词 器 ， 但 也 可 以 被 search analyzer fH. 
例子 如 下 : 


PUT my_index 
{ 
"settings": { 
"analysis": { 
"filter": q 
"autocomplete filter": ( 
"type": "edge ngram", 
"min gram": 1, 
"max gram": 20 
) 
hr 
"analyzer": { 


"autocomplete": { 
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"type": "custom", 
"tokenizer": "standard", 
"filter": [ 

"lowercase", 


“autocomplete filter" 


} 
}, 
"mappings": { 
"my type": { 
"properties": ( 
"text": { 
"type": "text", 
"analyzer": "autocomplete", 


"search analyzer": "standard" 


text 字段 使 用 autocomplete 分 词 器 进行 索引 ， 但 是 使 用 standard 分 词 器 进行 搜索 。 索 引 一 
条 文档 : 

PUT my_index/my_type/1 

{ 


"text": "Quick Brown Fox" 


} 
text 字段 生成 的 倒 排 索引 包含 以 下 词 项 : 


[ q, qu, qui, quic, quick, b, br, bro, brow, brown, f, fo, fox ] 


normalizer 


normalizer 参数 用 于 解析 前 的 标准 化 配置 ， 比 如 把 所 有 的 字符 转化 为 小 写 。 下 面 的 例子 中 
foo 字段 的 值 在 解析 前 使 用 自 定义 的 normalizer 把 字符 串 标准 化 并 转换 为 小 写 形式 : 


PUT index 
{ 
"settings": { 
"analysis": { 
"normalizer": ( 


"my normalizer": ( 


$53  Elasticsearch 集群 入 门 


165 


"type": "custom", 
"char filter": [], 


"filter": ["lowercase", 


H 
}, 
"mappings": { 
"type": { 
"properties": { 
"foo" { 


"type": "keyword", 


"normalizer": "my normalizer" 


) 
PUT index/type/1 


"foo": "BÀR" 
) 
PUT index/type/2 


"foo": "bar" 
) 
PUT index/type/3 


"foo": "baz" 
) 
POST index/ refresh 


"asciifolding"] 


下 面 的 查询 会 匹配 文档 1 和 2， 这 是 因为 在 索引 和 查询 的 时 候 都 将 BAR 转换 为 了 bar: 


GET index/_search 
{ 
"query": { 
"match": { 
"foo": "BAR" 
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4. boost 


boost 字段 用 于 设置 字段 的 权重 ,比如 ,设置 关键 字 出 现在 title 字 段 的 权重 是 出 现在 content 
字段 中 权重 的 两 倍 ， 其 中 content 字段 的 默认 权重 是 1，mapping 如 下 : 
PUT my_index 


{ 
"mappings": { 


"my type": { 
"properties": ( 
"title". { 
"type": "text", 
"boost": 2 
}, 
"content": { 


"type": "text" 


同样 ， 在 查询 时 指定 权重 也 是 一 样 的 : 


POST _search 
{ 


"query": { 
"match" ; { 
"title"; { 
"query": "quick brown fox", 
"boost": 2 


) 


推荐 在 查询 时 指定 boost。 在 索引 期 设置 权重 ， 如 果 不 重新 索引 文档 ， 权 重 无 法 修改 ， 在 
查询 时 指定 权重 可 以 实现 同样 的 效果 ， 同 时 修改 权重 ， 使 其 更 加 灵活 。 


5. coerce 


coerce 属性 用 于 清除 脏 数据 ， 默 认 值 是 true。 整 型 数字 5 有 可 能 会 被 写成 字符 串 “5" 或 者 
浮 点 数 5.0。coerce 属性 可 以 用 来 清除 脏 数据 ， 字 符 串 和 浮 点 数 会 被 强制 转换 为 整数 。 例 子 如 
下 ， 其 中 映射 中 指定 number one 和 number two 都 是 integer 类 型 ，number_two 字段 的 coerce 
属性 修改 为 false。 
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PUT my_index 
{ 
"mappings": { 
"my type": { 
"properties": ( 
"number one": ( 
"type": "integer" 
}, 
"number two": { 


"type": "integer", 


"coerce": false 


写 入 两 条 测试 文档 : 


PUT my_index/my_type/1 
{ 
"number one": "10" 


) 


PUT my index/my type/2 
{ 

"number two": "10" 
) 


Mapping 中 指定 number_one 字段 是 integer 类 型 ， 虽 然 插 入 的 数据 类 型 是 字符 串 ， 但 依然 
可 以 插入 成 功 ，number two 字段 关闭 了 coerce， 因 此 插入 失败 。 


6. copy_to 


copy to 参数 用 于 自 定 义 _all 字段 ， 可 以 把 多 个 字段 的 值 复 制 到 一 个 超级 字段 。 下 面 的 例 
子 中 把 title 字段 和 content 字段 的 内 容 合并 在 一 起 生成 一 个 full_content。 


PUT myindex 
{ 
"mappings": { 
"mytype": { 
"properties": { 
MELE Ms: 4 
"type": "texc", 
"copy to": "full content" 
ty 


168 从 Lucene 到 Elasticsearch: 全 文 检 索 实战 


"content": { 
"type": "text", 
"copy to": "full content" 


F 
"full content": { 
"type": "text" 


7. doc values 

doc values 参数 是 为 了 加 快 排序 、 聚 合 操作 , 在 建立 倒 排 索引 的 时 候 ， 额 外 增加 一 个 列 式 
存储 映射 是 一 种 空间 换 时 间 的 做 法 。 默认 是 开启 的 , 对 于 确定 不 需要 聚合 或 者 排序 的 字段 可 
以 关闭 doc_values 节省 存储 空间 。 


PUT my_index 
{ 
"mappings": { 
"my type": { 
"properties": ( 
"status code": ( 
"type": "keyword" 
he 
"session id": ( 
"type": "keyword", 
"doc values": false 


UE: text 类 型 不 支持 doc. values. 


8. dynamic 

dynamic 属性 用 于 检测 新 发 现 的 字段 ， 见 5.3.2 小 节 。 

9. enabled 

Elasticseaech 默认 会 索引 所 有 的 字段 , 而 有 些 字段 只 需要 存储 , 没有 查询 或 者 聚合 的 需求 ， 
这 种 情况 下 就 可 以 使 用 enabled 参数 来 控制 。 enabled HW false 的 字段 ，Elasticseaech 会 跳 过 字 
段 内 容 ， 该 字段 只 能 从 _source 中 获取 ， 但 是 不 可 以 被 搜索 ， 字 段 可 以 是 任意 类 型 。 例 如 ， 设 
置 name 字段 的 enabled 取 值 为 false: 
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PUT my_index 
t 
"mappings": ( 
"my type": { 
"properties": ( 
"name": { 


"enabled": false 


enabled 参数 还 可 以 禁用 映射 ， 下 面 的 命令 会 把 my index 下 的 my type 类 型 禁用 ， 再 往 
my. type 类 型 下 写 入 文档 ， 不 会 生成 字段 的 mapping 信息 : 


PUT my_index 
{ 
"mappings": { 
"my type": { 
"enabled": false 
) 
) 
) 


10. fielddata 


搜索 要 解决 的 问题 是 “包含 查询 关键 词 的 文档 有 哪些 ? ”， 聚合 恰恰 相反 ,聚合 要 解决 的 
问题 是 “文档 包含 哪些 词 项 ”， 大 多 数字 段 在 索引 时 都 会 生成 doc values, text 字段 除外 。 取 
而 代 之 ，text 字段 在 查询 时 会 生成 一 个 fielddata 的 数据 结构 ，fielddata 在 字段 首次 被 聚合 、 排 
序 或 者 使 用 脚本 的 时 候 生成 。Elasticsearch 通过 读 取 磁盘 上 的 倒 排 记录 表 重 新 生成 文档 词 项 关 
系 ， 最 后 在 Java 堆 内 存 中 排序 。 


text 字段 的 fielddata 属性 默认 是 关闭 的 ,开启 fielddata 非常 消耗 内 存 。 在 你 开启 text 字段 
以 前 ， 想 清楚 为 什么 要 在 text 类 型 的 字段 上 做 聚合 、 排 序 操作 ,大 多 数 情况 下 这 么 做 是 没有 意 
义 的 。 给 text 类 型 的 字段 开启 fielddata 的 命令 如 下 : 


PUT my_index/_mapping/my_type 
{ 
"properties": { 
"my field": { 
"type": "text", 
"fielddata": true 
) 
H 
} 
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11. format 
Elasticsearch 中 的 date 类 型 支持 多 种 格式 ，format 参数 就 是 用 于 指定 日 期 格式 的 。 下 面 的 


命令 中 给 date 字段 设置 了 3 种 可 接受 的 日 期 类 型 ,2017-08-01、2017-08-01 12:10:10、1501560610 
都 是 符合 格式 的 日 期 值 ， 更 多 的 日 期 格式 及 其 说 明 见 表 5-7。 


PUT my_index 
{ 
"mappings": { 
"my type": { 
"properties": ( 
"date": ( 
"type": 
"format": 


"date", 


" yyyy-MM-dd HH:mm:ss||yyyy-MM-dd||epoch millis " 


表 5-7 日 期 格式 
日 期 格式 含义 例子 
epoch_millis 从 1970 年 1 月 1 日 开始 所 经 过 的 毫秒 数 em 
epoch second 从 1970 年 1 月 1 日 开始 所 经 过 的 秒 数 1505520000 (北京 时 间 


date_optional_time 或 
strict_date_optional_time 


basic_date 


basic_date_time 


通用 的 ISO 标准 时 间 格 式 , 日 期 是 必须 的 ， 
时 间 可 选 

完整 的 日 期 基本 格式 : yyyyMMdd 

带 日 期 和 时 间 的 基本 格式 ， 日 期 和 时 间 用 
T 分 隔 : yyyyMMddTHHmmss.SSSZ 


2017/9/16 8:0:0) 


2017-09-16 


20170916 


20170916T121000.826+0800 


basic_date_time_no_millis 


忽略 毫秒 的 带 日 期 和 时 间 的 基本 格式 ， 
yyyyMMddTHHmmssZ 


20170916T121000+0800 


basic_ordinal_date 


基本 日 期 ， 包 括 四 位 数 年 份 和 当前 年 份 的 
具体 天 数 : yyyyDDD 


2017 年 的 第 100 天 :2017100 


四 位 数 年 份 和 当前 年 份 的 具体 天 数 再 加 上 


basic_ordinal_date_time 2017100T121000.826+0800 
Bi xm 时 间 : yyyyDDDTHHmmss.SSSZ 
四 位 数 年 份 和 当前 年 份 的 具体 天 数 加 上 时 
basic ordinal date time no millis 间 ， 忽 略 毫秒 : 2017100T121000+0800 
yyyyDDDTHHmmssZ 
basic_time 基本 时 间 格式 : HHmmss.SSSZ 121000.826+0800 
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日 期 格式 含义 例子 
basic time no millis 忽略 毫秒 的 基本 时 间 格 式 : HHmmssZ | 12100040800 
basic t time 带 T 标 记 的 基本 时 间 格 式 T121:00.826+0800 
THHmmss.SSSZ: 
basic_t_time_no_millis 带 T 标 记 的 基本 时 间 格 式 ， 忽 略 毫秒 : | T121000+0800 
THHmmssZ 
basic week date 或 strict basic week date | 基本 周 格式 日 期 : xxxxWwwe 2017 年 第 12 周 的 第 五 
天 :2017W123 
basic week date time 或 基本 周 格式 日 期 加 上 具体 时 间 : 2017W125T121000.826+0 
strict_basic_week_date_time xxxxWwweTHHmmss.SSSZ 800 
basic week date time no millis 或 基本 周 格式 日 期 加 上 具体 时 间 , 忽略 毫 | 2017W125T121000+0800 


Strict basic week date time no millis 
date BK strict. date 
date hour 或 strict date hour 


date hour minute 或 

strict date hour minute 

date hour minute second 或 

strict date hour minute second 

date hour minute second fraction 或 
strict date hour minute second fraction 
date hour minute second millis 或 


strict date hour minute second millis 


秒 : xxxxWwweTHHmmssZ 

日 期 格式 :yyyy-MM-dd 

日 期 格式 加 小 时 : 

yyyy-MM-ddTHH 

日 期 格式 加 小 时 分 钟 : 

yyyy-MM-ddTHH:mm 

日 期 格式 加 小 时 分 钟 和 秒 : 

yyyy-MM-ddTHH:mm:ss 

期 格式 加 小 时 分 钟 秒 和 毫秒 : 
-MM-ddTHH:mm:ss.SSS 


-MM-ddTHH:mm:ss.SSS 


2017-09-16 
2017-09-16T12 


2017-09-16T12:10 


2017-09-16T12:10:10 


2017-09-16T12:10:10.123 


2017-09-16T12:10:10.123 


date_time 或 strict_date_time 


期 加 完整 时 间 : 


日 
日 期 格式 加 小 时 分 钟 秒 和 毫秒 : 
y 
H 
yyyy-MM-ddTHH:mm:ss.SSSZZ 


2016-07-15T12:58:17.136 
+0800 


date_time_no_millis 或 


strict_date_time_no_millis 


日 期 加 完整 时 间 ， 不 带 毫秒 : 
yyyy-MM-ddTHH:mm:ss.SSSZZ 


2017-09-16T12:10:10 
-123+0800 


hour 或 strict_hour 小 时 : HH 12 
hour_minute 或 strict_hour_minute 小 时 加 分 钟 :HH:mm 12:45 
hour_minute_second 或 小 时 分 钟 加 秒 : HH:mm:ss 12:45:20 
strict_hour_minute_second 

hour_minute_second_fraction 或 小 时 分 钟 秒 加 毫秒 : HH:mm:ss.SSS 12:45:20.123 
strict_hour_minute_second_fraction 

hour minute second millis 或 小 时 分 钟 秒 加 毫秒 : HH:mm:ss.SSS 12:45:20.123 
strict hour minute second millis 

ordinal date 或 strict ordinal date 年 份 加 一 年 中 的 第 多 少 天 :yyyy-DDD | 2017-100 
ordinal date time 或 年 份 加 一 年 中 的 第 多 少 天 加 具体 时 2017-100T12:10:10 
strict_ordinal_date_time [&]:yyyy-DDDTHH:mm:ss.SSSZZ .12340800 
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日 期 格式 


含义 


GRR) 
例子 


ordinal date time no millis 或 


strict ordinal date time no millis 


年 份 加 一 年 中 的 第 多 少 天 加 具体 时 间 
不 带 毫秒 : 
yyyy-DDDTHH:mm:ssZZ 


2017-100T12:10:10+0800 


time 或 strict time 


具体 时 间 : HHzmm:ss.SSSZZ 


12:10:10.123+0800 


time no millis 或 strict_time_no_millis 


具体 时 间 不 带 毫秒 : HH:mm:ssZZ 


12:10:10+0800 


t time 或 strict t time 带 T 分 隔 符 的 时 间 : T12:10:10.123+0800 
THH:mm:ss.SSSZZ 

t time no millis 或 strict t time no millis | 带 T 分 隔 符 的 时 间 不 带 毫秒 : T12:10:10+0800 
THH:mm:ssZZ 

week date 或 strict week date 以 周 计 时 的 日 期 : 2017 年 第 12 周 的 星期 

Xxxx-Www-e 三 :2017-W12-3 

week date time 2k 以 周 计时 的 日 期 加 时 间 : 2017-W12-3T12:10: 

strict_week_date_time xxxx- Www-eTHH:mm:ss. SSSZZ 10.123+0800 

week date time no millis 或 以 周 计 时 的 日 期 加 时 间 不 带 毫 秒 : 2017-W12-3T12:10: 

strict_week_date_time_no_millis xxxx-Www-eTHH:mmiss. ZZ 10+0800 

weekyear 或 strict_weekyear 年 份 :xxxx 2017 

weekyear week 或 strict_weekyear week | 年 份 加 周 数 :xxxx-Www 2017-W12 

weekyear week day BÀ, 年 份 周 数 加 天 数 : xxxx-Www-e 2017-W12-4 

strict_weekyear_week_day 

year 或 strict_year 年 份 :yyyy 2017 

year_month 或 strict_year_month 年 份 加 月 :yyyy-MM 2017-09 

year_month_day 或 strict_year_month_day | 年 月 日 :yyyy-MM-dd 2017-09-16 


12. ignore_above 


ignore above 用 于 指定 字段 分 词 和 索引 的 字符 串 最 大 长 度 ， 超 过 最 大 值 的 会 被 忽略 ， 只 用 


于 keyword 类 型 ， 例 子 如 下 : 


PUT my_index 
t 
"mappings": { 
"my type": ( 
"properties": ( 
"message": ( 
"type": "keyword", 
"ignore above": 20 
) 
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} 


PUT my index/my type/1 
t 

"message": "short document" 
) 


PUT my index/my type/2 
{ 


"message": "another long document" 
} 


GET my_index/_search 
{ 
"size": 0, 
"aggs": { 
"messages": {"terms": {"field": "message"}} 


} 


mapping 中 指定 了 ignore_above 字段 的 最 大 长 度 为 20, 第 一 个 文档 中 的 message 字段 的 字 
符 数 小 于 20， 第 二 个 超过 20， 聚 合 结果 中 只 会 返回 第 一 个 短文 档 : 


"aggregations": { 
"messages": { 
"doc count error upper bound": 0, 
"sum other doc count": 0, 
"buckets": [ 


{ 
"key": "short document", 
"doc count": 1 


13. ignore malformed 

ignore malformed 可 以 忽略 不 规则 数据 ， 对 于 login 字段 ， 有 人 可 能 填写 的 是 date 类 型 ， 
也 有 人 填写 的 是 邮件 格式 。 给 一 个 字段 索引 不 合适 的 数据 类 型 会 发 生 异 常 , 进而 导致 整个 文档 
索引 失败 。 如 果 ignore malformed 参数 设 为 true， 异 常会 被 忽略 ， 出 异常 的 字段 不 会 被 索引 ， 
其 他 字段 正常 索引 。 
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PUT my_index 
{ 
"mappings": { 
"my type": { 
"properties": ( 
"number one": ( 
"type": "integer", 
"ignore malformed": true 
}, 
"number two": { 


"type": "integer" 


PUT my index/my type/1 
{ 


"text": "Some text value", 
"number one": "foo" 


) 


PUT my index/my type/2 

{ 
"text"; "Some text value", 
"number two": "foo" 


) 


上 面 的 例子 中 number_one 接受 integer 2%, ignore malformed 属性 设 为 tue， 因 此 文档 1 
中 number one 字段 虽然 是 字符 串 但 依然 能 写 入 成 功 ，number two 只 接受 integer 类 型 ， 默 认 
ignore malformed 属性 为 false， 因 此 写 入 失败 。 


14. include_in_all 


include in all 参数 用 于 指定 字段 的 值 是 否 包 含 在 _all 字段 中 ， 默 认 值 为 ttue。 如 果 需 要 把 
某 个 字段 排除 在 _all 字段 之 外 ， 可 以 把 include in all 参数 的 取 值 设 为 false， 命 令 如 下 : 


PUT my_index 
{ 
"mappings": { 
"my type": ( 
"properties": ( 
"titte": 4 
"type"; "text" 
br 
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"content": { 
"type": "text" 

}, 

"date": { 
"type": "date", 
"include in all": false 


include in all 参数 的 取 值 对 赃 套 类 型 或 对 象 类 型 的 子 字 段 都 生效 。 

15. index 

index 属性 指定 字段 是 否 索引 ， 不 索引 也 就 不 可 搜索 ， 取 值 可 以 为 true 或 者 falses 

16. index_options 

index options 参数 控制 索引 时 存储 哪些 信息 到 倒 排 索引 中 ， 可 取 值 见 表 5-8. VETE text 字 
段 存储 文档 编号 、 词 项 频率 、 词 项 位 置 、 词 项 开始 和 结束 的 字符 位 置 ， 映 射 如 下 : 

PUT my_index 


{ 


"mappings": { 


"my_type": { 
"properties": { 
"text": { 
"type": "text", 


"index options": "offsets" 


3k5-8 index options& S HV f& 


参数 作用 
docs 只 存储 文档 编号 ， 默 认 取 值 
freas | 存储 文档 编号 和 词 项 频率 
positions | 存储 文档 编号 、 词 项 频率 、 词 项 偏 移 位 置 ， 偏 移 位 置 可 用 于 临近 搜索 和 短语 查询 
| 文档 编号 、 词 项 频率 、 词 项 的 位 置 、 词 项 开始 和 结束 的 字符 位 置 都 被 存储 ，offsets B true 

offsets ve ` Seas 

会 使 用 Postings highlighter 

17. fields 


fields 参数 可 以 让 同一 字段 有 多 种 不 同 的 索引 方式 。 比 如 一 个 文本 类 型 的 字段 ， 可 以 使 用 
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text 类 型 做 全 文 检索 ， 使 用 keyword 类 型 做 聚合 和 排序 ， 映 射 如 下 : 


PUT my_index 
{ 
"mappings": { 
"my type": { 
"properties": ( 
sorty t £f 
"type": "text", 
"fields": ( 
"raw": ( "type": "keyword"} 


18. norms 


norms 参数 用 于 标准 化 文档 ， 以 便 查询 时 计算 文档 的 相关 性 。norms 虽然 对 评分 有 用 ， 但 
是 会 消耗 较 多 的 磁盘 空间 ， 如 果 不 需 要 对 某 个 字段 进行 评分 ， 最 好 不 要 开启 norms. 


19. null_value 


值 为 null 的 字段 不 索引 也 不 可 以 搜索 ，null_value 参数 可 以 让 值 为 null 的 字段 显 式 的 可 索 
引 、 可 搜索 。 例 子 如 下 : 


PUT my_index 
{ 
"mappings": { 
"my type": ( 
"properties": ( 
"status code": ( 
"type": "keyword", 
"null value": "NULL" 


PUT my index/my type/1 
{ 

"status code": null 
) 
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PUT my index/my type/2 
t 
"status code": [] 
H 
GET my index/ search 
t 
"query"; 1 
"term": { 
"status code": "NULL" 
) 


) 


文档 1 可 以 被 搜索 到 , AL status. code 的 值 为 null, 文 档 2 不 可 以 被 搜索 到 ,因为 status_code 
为 空 数组 ， 但 是 不 是 null. 


20. position_increment_gap 


为 了 支持 近似 或 者 短语 查询 , text 类 型 的 字段 被 解析 的 时 候 会 考虑 词 项 的 位 置信 息 。 举例， 
一 个 字段 的 值 为 数组 类 型 : 


"names": [ "John Abraham", "Lincoln Smith"] 


为 了 区 别 第 一 个 字段 和 第 二 个 字段 , Abraham fil Lincoln 在 索引 中 有 一 个 间距 ,默认 是 100。 
例子 如 下 ， 这 时 查询 “Abraham Lincoln” 是 查 不 到 的 : 


PUT my_index/groups/1 
{ 

"names": [ "John Abraham", "Lincoln Smith"] 
} 


GET my_index/groups/_search 
{ 
"query": { 
"match phrase": { 
"names": ( 


"query": "Abraham Lincoln" 


) 
指定 间距 大 于 100 时 ， 就 可 以 查询 到 上 述 文档 : 


GET my_index/groups/_search 
{ 
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"query": { 
"match phrase": { 
"names": { 
"query": "Abraham Lincoln", 
"slop": 101 


} 
在 mapping 中 通过 position_increment_gap 参数 指定 间距 ， 命 令 如 下 : 


PUT my_index 
{ 
"mappings": { 
"groups": { 
"properties": { 
"names": { 
"type": "text", 


"position increment gap": 0 


21. properties 


类 型 的 映射 、 普 通 字段 、object 类 型 和 nested 类 型 的 字段 都 称 为 properties 〈 属 性) ， 这 
些 属 性 可 以 为 任意 的 数据 类 型 ， 包 括 object 和 nested 类 型 。 属 性 可 以 通过 以 下 方式 加 入 : 


e 在 创建 索引 时 明确 地 定义 它们 。 
e 在 使 用 PUT mapping API 添加 或 更 新 映射 类 型 时 明确 地 定义 它们 。 
e 索引 包含 新 字段 的 文档 时 动态 地 加 入 。 


22. similarity 
similarity 参数 用 于 指定 文档 评分 模型 ， 参 数 有 三 个 : 


e BMOS Elasticsearch 和 Lucene 默认 的 评分 模型 。 
e classic TF/IDF 评分 。 
e boolean 布尔 模型 评分 。 


PUT my_index 
{ 
"mappings": { 
"my type": { 
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"properties": { 

"default field": { 
"type": "text" 

) 

"classic field": { 
"type": "text", 
"similarity": "classic" 

}, 

"boolean sim field": { 
"type": "text", 
"similarity": "boolean" 


default field 自动 使 用 BM25 评分 模型 ，classic field 使 用 TF/IDF 经 典 评分 模型 ， 
boolean_sim_field 使 用 布尔 评分 模型 。 


23. store 


默认 情况 下 ， 字 段 是 被 索引 的 ， 也 可 以 搜索 ， 但 是 不 存储 ， 这 也 没关系 ， 因 为 source 字 
段 里 保存 了 一 份 原始 文档 。 在 某 些 情况 下 ，store 参数 有 意义 ， 比 如 一 个 文档 里 有 title, date 
和 超大 的 content 字段 ， 如 果 只 想 获取 title 和 date， 可 以 这 样 配置 : 


PUT my_index 
{ 
"mappings": { 
"my type": ( 
"properties": ( 
"title"; { 
"type": "text", 
"store": true 
}, 
"date": { 
"type": "date", 
"store": true 
tr 
"content": { 
"type": "text" 
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24. term_vector 
词 向 量 包含 了 文本 被 解析 以 后 的 以 下 信息 : 
e 词 项 集合 。 
e dE. 
e dna S REIR S Ei SRS FB E 
term. vector 参数 的 取 值 见 表 5-9. 
表 5-9 tem vector% km 


参数 取 值 含义 

no 默认 值 ， 不 存储 词 向 量 
yes 只 存储 词 项 集合 

with positions 存储 词 项 和 词 项 位 置 
with_offsets 词 项 和 字符 偏 移 位 置 


存储 词 项 、 词 项 位 置 、 字 符 偏 移 位 置 


with_positions_offsets 
5.3.8 ”映射 模板 


通过 动态 映射 模板 ， 可 以 在 mapping 之 上 拥有 对 新 字段 的 完整 控制 ， 甚 至 可 以 根据 字段 
和 名 称 来 设置 映射 。 每 个 模板 都 有 一 个 名 字 , 用 来 描述 这 个 模板 做 了 什么 。 同 时 它 有 一 个 映射 
用 来 指定 具体 的 映射 信息 ， 还 有 至 少 一 个 参数 〈 比 如 match) 用 来 规定 对 于 什么 字段 需要 使 用 
该 模板 。 模 板 的 匹配 有 先后 ， 只 有 第 一 个 匹配 的 模板 会 被 使 用 。 下 面 的 例子 中 增加 了 一 个 名 为 
longs as strings 的 映射 模板 ， 如 果 字 段 名 称 以 long Fk, FEREN long 类 型 ， 映 射 如 下 : 


PUT my_index 
"mappings": { 
"my type": { 
"dynamic templates": [ 
{ 
"longs as strings": { 
"match mapping type": "string", 


"match": "long *", 
"unmatch": "* text", 
"mapping": ( 


"type": "long" 
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写 入 一 条 测试 文档 : 
PUT my_index/my_type/1 
{ 
"long num": "5", 
"long text": "foo" 
H 


long num 字段 会 被 解析 为 long 类 型 long text 仍 为 默认 的 字符 串 类 型 ， 
match mapping type 允许 只 对 特定 类 型 的 字段 使 用 模板 ， 正 如 标准 动态 映射 规则 那样 ， 比 如 
string、long 等 类 型 ，match 参数 中 指定 可 以 匹配 的 字段 名 的 规则 ，unmatch 参数 指定 不 匹配 的 
字段 名 规则 。 另 外 ，path_match 参数 用 于 匹配 字段 的 完整 路 径 ， 比 如 address.*.name 可 以 匹配 
如 下 字段 : 


{ 


"address": { 
monty: f 
"name": "New York" 


} 
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本 章 介绍 了 Elasticsearch 的 基础 知识 ， 主 要 包括 如 何在 Elasticsearch 中 进行 索引 管理 、 文 
档 管理 以 及 如 何 配置 映射 ， 这些 都 是 为 存储 文档 做 铺垫 。 同 时 也 总 结 了 一 些 经 验 和 技巧 , 为 后 
续 的 学 习 打 下 基础 。 


Elasticsearch 搜索 详解 


本 章 学 习 要 点 : 


*k 配置 Elasticsearch 中 文 分 词 器 
k 如 何 实现 基本 查询 搜索 
* 如 何 使 用 复合 查询 


* 如 何 使 用 过 滤器 
k 如 何 实现 搜索 高 亮 
k 文档 的 父子 关系 与 典 套 搜索 


6.1 搜索 机 制 


Elasticsearch 的 核心 功能 是 搜索 , 有 了 前 面 的 基础 , 可 以 合理 地 把 文档 索引 到 Elasticsearch 


之 中 ， 本 章 介 绍 Elasticsearch 提供 的 丰富 的 搜索 A 


PI 及 其 用 法 。 


为 了 更 好 地 理解 搜索 机 制 ， 首 先 从 宏观 上 认识 搜索 流程 。 图 6-1 描述 了 一 条 文档 从 索引 到 
Elasticsearch 被 搜索 到 的 全 过 程 ， 图 中 把 坐标 系 分 成 了 4 个 象限 ， 第 一 象限 是 用 户 ， 第 二 象限 
是 原始 文档 ， 第 三 象限 是 Elasticsearch， 第 四 象限 是 搜索 结果 。 

首先 看 索引 过 程 。 在 第 二 象限 中 有 一 条 原始 的 文档 ， 该 文档 有 title 和 content 两 个 字段 。 


当 把 这 条 文档 写 入 Elasticsearch 之 后 ， 默 认 情况 下 


Elasticsearch 中 会 保存 两 份 内 容 ， 一 份 是 该 


文档 的 原始 内 容 ， 也 就 是 _source 中 的 文档 内 容 ， 另 一 份 是 索引 时 通过 分 词 、 过 滤 等 一 系列 过 


程 生成 的 倒 排 索引 文件 ， 倒 排 索引 中 保存 了 词 项 条 


文档 的 对 应 关系 。 


再 来 看 搜索 过 程 。 第 一 象限 的 用 户 对 文档 进行 搜索 ，Elasticsearch 接收 到 查询 关键 词 之 后 


到 倒 排 索 引 中 进行 查询 , 通过 倒 排 索 引 中 维护 的 倒 


排 记录 表 找到 关键 词 对 应 的 文档 集合 , 然后 


做 评分 、 排 序 、 高 亮 处 理 ， 最 终 返 回 搜索 结果 给 用 户 。 
搜索 机 制 解决 的 是 相关 度 的 问题 ， 当 用 户 输入 一 个 查询 ，Elasticsearch 通过 排序 模型 计算 文 


档 和 查询 关键 词 之 间 的 相关 度 ， 按 照 评 分 排序 后 返 


回 最 相关 的 文档 给 用 户 。 另 外 ，Elasticsearch 


中 还 有 一 种 过 滤 机 制 ， 过 滤 机 制 解决 的 是 只 根据 条 件 对 文档 进行 过 滤 ， 不 计算 评分 。 
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原始 文档 : 
title: java 编 程 指南 


content: java 学 习 入 门 书 © 
ge 
索引 时 保存 索引 时 生成 


一 份 原始 文档 倒 排 索引 Query: Java 


倒 排 索引 


_source: 
title: java 编 程 指南 
content: java 学 习 入 门 书 


搜索 结果 : 
title: java 编 程 指南 
content: java 学 习 入 门 书 


java 一 一 > id 


获取 
SCID 


all: 


= 学 习 一 一 2id 
java 编 程 指南 java 学 习 入 门 


入 门 一 ->id 
= 


高 亮片 段 : 
<em> java《/em) 编 程 指南 


Elasticsearch 


图 6-1 搜索 流程 图 


为 了 有 助 于 学 习 搜索 的 相关 知识 ， 这 里 准备 一 些 IT 类 图 书信 息 作 为 测试 数据 ， 每 一 条 文 
档 都 包含 id、 标题 、 编 程 语言 、 作 者 、 定 价 、 出 版 日 期 和 内 容 描 述 这 7 个 字段 。 首 先 把 下 面 
的 内 容 保存 到 books.json 文件 中 : 


"index":{ " index"; "books", " type"; "IT", " id"; "1" 
"ig" title":"Java 编程 思想 ", "language":"java", "author":"Bruce 
Eckel", "price":70.20, "publish time":"2007-10-01","description": 
"Java 学 习 必 读经 典 , MERRE! RET REE A IE BRE.) 
"books", " type*s «Irmy *" id^ 
"id":"2","title":"Java 程序 性 能 优化 ", "Language" : "java", "author": " Ej—nS 
","price":46.50, "publish _time":"2012-08-01", "description": "ik (Rhy 
Java 程序 更 快 、 更 稳定 。 深 入 剖析 软件 设计 层面 、 代 码 层面 、JVM 虚拟 机 层面 的 优化 方法 " } 
“"index":{ " index": "books", " type": "IT", " id"; "3" 
"id":"3","title":"Python 科学 计算 ", "Language" : "python", "author" : "3k 
fB","price":81.40, "publish_time":"2016-05-01", "description":" 零 基础 学 
python, 光盘 中 作者 独家 整合 开发 winPython 运行 环境 ， 涵 盖 了 Python 各 个 扩展 库 "} 
"index":{ " index": "books", " type": "IT", " id": "4" 
"id" "Python 基础 教程 ", "language": "python", "author": 
"Helant","price":54.50, "publish time":"2014-03-01","description":" 
经 典 的 Python 入 门 教程 ， 层 次 鲜明 ， 结 构 严 谨 ， 内 容 翔 实 "} 
{"index":{ " index": "books", " type": "IT", " id": "5" 
"id":"5","title":"JavaScript 高 级 程序 设计 ", "language": "javascript", 
"author":"Nicholas C. Zakas","price":66.40,"publish time":"2012-10- 
01","description":"JavaScript 技术 经 典 名 著 "} 


"index":{ " index" 
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创建 索引 并 设置 settings 和 mapping, 这 里 指定 索引 名 为 books, 类 型 名 为 IT, 副本 数 为 1, 
分 片 数 为 3， 命 令 如 下 : 
PUT books 


t 
"settings": ( 


"number of replicas": 1, 
"number of shards": 3 

}, 

"mappings": { 


"IT":( 
"properties": ( 
"id":( 


"type": "long" 
}, 
"title":t( 
"type": "text", 
"analyzer": "ik max word" 
}, 
"language": { 


"type": 
}, 
"author" :{ 


keyword" 


"type": "keyword" 
ie 
"price": { 
"type": "double" 
Fia 
"year": { 
"type": "date", 
"format": "yyy-MM-dd" 
}, 
"description": { 
"type": "text", 
"analyzer": "ik max word" 


} 
最 后 执行 bulk 批量 导入 命令 把 文档 写 入 Elasticsearch: 


curl -XPOST "http://localhost:9200/ bulk?pretty" --data-binary @books.json 
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如 果 一 切 顺利 ， 数 据 导 入 成 功 之 后 就 可 以 搜索 了 。Elasticsearch RESTful 的 查询 语句 要 封 
装 成 JSON 格式 的 对 象 ， 称 之 为 查询 DSL。 在 Kibana 的 Dev Tools 中 执行 match all query Æ 
看 全 部 数据 : 


GET books/_search 
{ 
"query": { 
"match all": {} 
) 
) 


match all query 会 返回 所 有 文档 ， 文 档 的 得 分 都 是 1。match_all query 可 以 简写 如 下 : 


GET books/_search 

下 面 以 term query 为 例 , 介绍 如 何 进行 词 项 搜索 、 分 页 限制 、 返 回 指定 字段 、 显 示 版 本 号 、 
控制 最 小 评分 以 及 关键 字 的 高 亮 。 

term 查询 用 来 查找 指定 字段 中 包含 给 定单 词 的 文档 ，term 查询 不 被 解析 ， 只 有 查询 词 和 
文档 中 的 词 精确 匹配 才 会 被 搜索 到 ,应 用 场景 为 查询 人 名 、 地 名 等 需要 精准 配备 的 需求 。 比 如 
查询 title 字段 中 含有 关键 词 “ 思 想 ” 的 书籍 ， 查 询 命令 如 下 : 


GET books/_search 
{ 
"query": { 
"term": ( "title": "思想 "} 
} 
} 


返回 结果 如 下 : 

{ 
"took": 0, 
"timed out": false, 
" shards": ( 


"total": 3, 
"successful": 3, 
"failed": 0 
) 
"hits" { 
"total": 1, 
"max score": 0.6099695, 
“hats! 3: f 
{ 
" index": "books", 
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" score": 0.6099695, 
" source": ( 
vidre "En, 
"title": "Java 编程 思想 "， 
"language": "java", 
"author": "Bruce Eckel", 
"price": 70.2, 
"publish time": "2007-10-01", 
"description": "Java 学 习 必 读经 典 , 殿堂 级 著作 ! 赢得 了 全 球 程序 员 的 广泛 赞誉 。" 


hits 中 的 内 容 就 是 搜索 到 的 文档 ,total 字 段 表示 一 次 查询 符合 查询 条 件 的 文档 数 ,通过 term 
查询 搜索 到 了 一 条 文档 , 文档 的 index、type、id、 文 档 评 分 以 及 文档 内 容 都 可 以 在 查询 结果 中 
看 到 。 

测试 数据 集 文档 数目 较 少 ， 在 数据 量 比较 大 的 情况 下 ， 一 次 查询 会 返回 成 百 上 千 条 数据 ， 
这 种 情况 下 就 需要 对 查询 结果 分 页 。Elasticsearch 提供 了 结果 分 页 的 两 个 属性 : from 和 size, 
from 指定 返回 结果 的 开始 位 置 ， 默 认 值 为 0， 也 就 是 从 头 开始 返回 文档 ，size 指定 了 一 次 返回 
结果 所 包含 的 最 大 文档 数量 。 比 如 ， 返回 结 果 中 有 1000 条 结果 ， 分 成 10 页 ， 那 么 第 二 页 需要 
返回 第 100 到 第 200 条 文档 ， 可 以 设置 from 的 取 值 为 100，size 的 取 值 为 100。 改 进 上 述 term 
查询 ， 加 入 分 页 和 结果 规模 控制 ， 查 询 体 如 下 : 

GET books/_search 

{ 


"from"; 0, 
"size": 100, 
"query": { 
"term": ("title": "思想 "} 
} 
} 


默认 情况 下 返回 结果 中 包含 了 文档 的 所 有 字段 信息 ， 有 时 候 为 了 简洁 ， 只 需要 在 查询 结 
果 中 返回 某 些 字段 ，Elasticsearch 也 是 允许 的 。 例 如 ， 查 询 标题 中 包含 关键 词 java 的 书籍 ， 只 
返回 title 和 price 字段 ， 查 询 语句 如 下 : 

GET books/_search 

{ 


" source": ["title","price"], 


"query": { 
"term": {"title": "java"} 
1 
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默认 情况 下 返回 结果 中 不 包含 文档 的 版 本 号 ， 如 果 需 要 ， 可 以 在 查询 体 的 中 设置 version 
属性 为 true: 
GET books/_search 


{ 


"version": true, 


"query": { 
"term": {"title": "java"} 
} 


Elasticsearch 提供 了 基于 最 小 评分 的 过 滤 机 制 ， 这 种 机 制 非常 有 用 。 执 行 一 次 搜索 相关 的 
文档 会 非常 多 ， 有 些 文 档 的 相关 性 比较 低 ， 通 过 评分 过 滤 可 以 筛选 出 最 相关 的 文档 。 要 想 实 现 
这 一 功能 ， 在 查询 体 中 添加 min score 的 最 低 评分 数 ， 只 有 评分 超过 这 个 分 数 的 文档 才 会 被 返 
可 ， 下 面 的 查询 会 返回 title 中 包含 关键 词 java 且 文 档 评分 不 低 于 0.6 的 文档 ， 查 询 语句 如 下 : 

GET books/_search 

{ 


"min score": 0.6, 


"query": ( 
"term": ( 
"title": "java" 
) 
) 
) 
最 后 再 演示 如 何 高 亮 查 询 关键 字 ， 查 询 语句 如 下 : 
GET books/_search 
{ 
"query": { 
"term": { 
"title": "编程 " 
} 
} 
"highlight": { 
"fields": { 
"title": {} 
} 


II 


返回 结果 如 图 6-2 所 示 。 
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History Settings Help 


kel", 


"Jova* 3) 4b EE Re RLRE! 


图 6-2 term query 关键 字 高 亮 
到 此 为 止 ， 通 过 term 查询 演示 了 如 何 构造 查询 语句 、 如 何 控制 查询 结果 的 规模 大 小 、 如 
何 返 回 查 询 到 的 文档 的 版 本 号 、 如 何 只 返回 文档 的 部 分 字段 、 如 何 设置 最 小 评分 、 如 何 实现 关 
键 词 高 亮 。 学 习 Elasticsearch 搜索 命令 的 简单 流程 是 先 构 造 查询 语句 ， 再 执行 查询 ， 最 后 查看 
返回 结果 ， 动 手 裔 命令 是 最 好 的 学 习 方 法 ， 后 面 的 各 种 查询 学 习 方 法 类 似 ， 我 们 只 需要 改变 
query 中 的 查询 语句 ， 就 可 以 实现 更 多 种 功能 的 搜索 。 
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高 级 别 的 全 文 搜索 通常 用 于 在 全 文字 段 〈 例 如 : 一 封 邮 件 的 正文 ) 上 进行 全 文 搜索 ， 通 
过 全 文 查询 理解 被 查询 字段 是 如 何 被 索引 和 分 析 的 , 在 执行 之 前 将 每 个 字段 的 分 词 器 (或 搜索 
分 词 器 ) 应 用 于 查询 字符 串 。 


6.2.1 match query 


match 查询 会 解析 查询 语句 , 举 一 个 经 典 的 例子 : 假设 我 们 现在 的 查询 语句 为 “java 编程 ”， 
AWRA title, (EH term query 进行 查询 ， 查 询 命令 及 查询 结果 如 图 6-3 所 示 ， 可 以 看 到 搜索 
结果 为 空 。 但 是 测试 文档 集合 中 有 一 个 文档 的 title JJ "Java 编程 思想 ”， 查 询 “java 编程 ” 理 
应 返回 该 文档 的 ， 为 什么 没有 返回 ? 

究 其 原因 ，term query 查 的 是 词 项 ，“Java 编程 思想 ”经 过 分 词 以 后 会 变 成 “java”“ 编 
程 ”“ 思 想 ” 等 多 个 词 项 ， 不 存在 词 项 “java 编程 ”， 因 此 返回 结果 为 空 。 换 成 match query, 
查询 结果 如 图 6-4 所 示 。 
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图 6-4 match query 查询 结果 


match query 会 对 查询 语句 进行 分 词 ， 分 词 后 查询 语句 中 的 任何 一 个 词 项 被 匹配 ， 文 档 就 
会 被 搜索 到 。 如 果 想 查询 匹配 所 有 关键 词 的 文档 ， 可 以 用 and 操作 符 连 接 ， 命 令 如 下 : 


GET books/_search 
{ 
"query": { 
"match" = { 
"Ete a. d 
"query" "java 编程 思想 "， 
"operator" : "or" 
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6.2.2 match_phrase query 


match_phrase query 首先 会 把 query 内 容 分 词 ， 分 词 器 可 以 自 定义 ， 同 时 文档 还 要 满足 以 
下 两 个 条 件 才 会 被 搜索 到 : 


(1) 分 词 后 所 有 词 项 都 要 出 现在 该 字段 中 。 
(2) 字段 中 的 词 项 顺序 要 一 致 。 


例如 ， 有 以 下 3 个 文档 , 使 用 match phrase 查询 “hello world” , 只 有 前 两 个 文档 会 被 匹配 : 


PUT test/test/1 
{ "foo": "I just said hello world"} 


PUT test/test/2 
{"foo": "Hello world"} 


PUT test/test/3 
{"foo": "World Hello"} 


GET test/_search 
{ 
"query": { 
"match phrase": ("foo": "hello world"} 
) 
) 


6.2.3 match phrase prefix query 


match phrase prefix 和 match. phrase 类 似 , 只 不 过 match. phrase. prefix 支持 最 后 一 个 term 
前 级 匹配 : 


GET test/_search 
{ 
"query": { 
"match phrase prefix" : { 
"foo" i "hello w" 


) 
6.2.4 multi match query 

multi match 是 match 的 升级 ， 用 于 搜索 多 个 字段 。 查 询 语 句 为 “java 编程 ”， 查 询 域 为 
title 和 description， 查 询 语句 如 下 : 


GET books/_search 
{ 
"query": { 
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"multi match" : { 
"query": "java 编程 "， 
"fields": [ "title", "description" ] 
} 
} 
H 


multi match 支持 对 要 搜索 的 字段 的 名 称 使 用 通配符 ， 示 例如 下 : 


GET /_search 
{ 


"query": { 
"multi match" : { 
"query": "java 编程 "， 
"fields": [ "title", "*_name" ] 


} 
} 
} 
同时 ， 也 可 以 用 指数 符 指定 搜索 字段 的 权重 。 指 定 关 键 词 出 现在 title 中 的 权重 是 出 现在 
description 字段 中 的 3 倍 ， 命 令 如 下 : 
GET /_search 
{ 


"query": { 
"multi match" : { 
"query" : " java 编程 "， 
"fields" ; [ "title^3", " description " ] 


) 
} 
} 


6.2.5 common terms query 


common terms query 是 一 种 在 不 牺牲 性 能 的 情况 下 蔡 代 停 用 词 提高 搜索 准确 率 和 召回 率 
的 方案 。 

查询 中 的 每 个 词 项 都 有 一 定 的 代价 ， 以 搜索 “The brown fox” 为 例 ，query 会 被 解析 成 三 
个 词 项 “the”“brown” 和 “fox”， 每 个 词 项 都 会 到 索引 中 执行 一 次 查询 。 很 显然 包含 “the” 
的 文档 非常 多 ， 相 比 其 他 词 项 ，“the” 的 重要 性 会 低 很 多 。 传 统 的 解决 方案 是 把 “the” 当 作 
停 用 词 处 理 ， 去 除 停 用 词 之 后 可 以 减少 索引 大 小 ， 同 时 在 搜索 时 减少 对 停 用 词 的 收缩 。 

虽然 停 用 词 对 文档 评分 影响 不 大 ， 但 是 当 停 用 词 仍 然 有 重要 意义 的 时 候 ， 去 除 停 用 词 就 
不 是 完美 的 解决 方案 了 。 如 果 去 除 停 用 词 ， 就 无 法 区 分 “happy” 和 “not happy”, “The” “To 
be or not to be” 就 不 会 在 索引 中 存在 ， 搜 索 的 准确 率 和 召回 率 就 会 降低 。 

common terms query 提供 了 一 种 解决 方案 , 它 把 query 分 词 后 的 词 项 分 成 重要 词 项 〈 低 频 
词 项 ) 和 不 重要 的 词 项 〈 高 频 词 ， 也 就 是 之 前 的 停 用 词 ) 。 在 搜索 的 时 候 ， 首 先 搜索 和 重要 词 
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项 匹配 的 文档 , 这 些 文档 是 词 项 出 现 较 少 并 且 词 项 对 其 评分 影响 较 大 的 文档 。 然后 执行 第 二 次 
查询 ,搜索 对 评分 影响 较 小 的 高 频 词 项 , 但 是 不 计算 所 有 文档 的 评分 , 而 是 只 计算 第 一 次 查询 


已 经 匹配 的 文档 得 分 。 如 果 一 个 查询 中 只 包含 高 频 词 , 那么 会 通过 and 连接 符 执行 一 个 


查询 ， 换 言 之 ， 会 搜索 所 有 的 词 项 。 
词 项 是 高 频 词 还 是 低频 词 是 通过 cutoff. frequency KEE REK, 取 值 可 以 是 绝对 频率 ( 频 


率 大 于 1) 或 者 相对 频率 (0 一 1) . common terms query 最 有 趣 之 处 在 于 


PARAS 


自 适 应 特定 领域 


的 停 用 词 ， 例 如 ， 在 视频 托管 网 站 上 ， 诸 如 “clip” 或 “video” 之 类 的 高 频 词 项 将 自动 表现 为 


停 用 词 ， 无 须 保留 手动 列表 。 


例如 ,文档 频率 高 于 0.1% 的 词 项 将 会 被 当 作 高 频 词 项 , 词 频 之 间 可 以 用 low_freq_operator、 
high freq operator 参数 连接 。 设 置 低频 词 操作 符 为 “and” 使 所 有 的 低频 词 都 是 必须 搜索 的 ， 


示例 代码 如 下 : 
GET /_search 
{ 
"query": { 
"common": { 


"body": 


"query": "nelly the elephant as a cartoon", 


{ 


"cutoff frequency": 0.001, 


"low freq operator": "and" 


) 
) 


上 述 操作 等 价 于 : 


GET /_search 
{ 
"query": { 
"bool"; { 


"must": 


a 


[ 


"term": 
"term": 


"term": 


"should": 
"term": 
"term": 
"term": 


(T 
(T 
(T 


[ 
{ 
{ 
{ 


"body": 
"body": 
"body": 


"nelly"}}, 
"elephant"}}, 
"cartoon"}} 


"the"}}, 
"as"}}, 
a 
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6.2.6 query_string query 


query string query 是 与 Lucene 查询 语句 的 语法 结合 非常 紧密 的 一 种 查询 ， 允 许 在 一 个 查 
询 语 句 中 使 用 多 个 特殊 条 件 关 键 字 (如 : ANDIORINOT ) 对 多 个 字段 进行 查询 ， 建 议 熟悉 
Lucene 查询 语法 的 用 户 去 使 用 。 


6.2.7 simple_query_string 
simple_query_string 是 一 种 适合 直接 暴露 给 用 户 ， 并 且 具 有 非常 完善 的 查询 语法 的 查询 语 
句 ， 接 受 Lucene 查询 语法 ， 解 析 过 程 中 发 生 错误 不 会 抛 出 异常 。 例 子 如 下 : 


GET /_search 
{ 


"query": { 


“simple query string" : { 


"query": "\"fried eggs\" +(eggplant | potato) -frittata", 


"analyzer": "snowball", 
"fields": ["body^5"," all"], 
"default operator": "and" 


6.3 词 项 查询 


全 文 搜索 在 执行 查询 之 前 会 分 析 查 询 字符 串 ， 词 项 搜索 时 对 倒 排 索引 中 存储 的 词 项 进行 
精确 操作 。 词 项 级 别 的 查询 通常 用 于 结构 化 数据 ， 如 数字 、 日 期 和 枚 举 类 型 。 


6.3.1 term query 
term query 用 于 词 项 搜索 ， 在 6.1 小 节 中 已 经 解释 过 了 ， 这 里 不 再 重复 。 
6.3.2 terms query 


terms 查询 是 term 查询 的 升级 ， 可 以 用 来 查询 文档 中 包含 多 个 词 的 文档 。 比 如 想 查询 title 
字段 中 包含 关键 词 “java” 或 “python” 的 文档 ， 构 造 查询 语句 如 下 : 
GET books/_search 


{ 
"query": { 


"terms": { 
"title": ["java","python"] 
} 
} 
} 
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6.3.3 range query 


range 查询 用 于 匹配 在 某 一 范围 内 的 数值 型 、 日 期 类 型 或 者 字符 串 型 字段 的 文档 ， 比 如 搜 
索 哪些 书籍 的 价格 在 50 到 100 之 间 、 哪 些 书籍 的 出 版 时 间 在 2014 年 到 2016 年 之 间 。 使 用 range 
查询 只 能 查询 一 个 字段 ， 不 能 作用 在 多 个 字段 上 。range 查询 支持 的 参数 有 以 下 几 种 : 

e gt 大 于 ， 查 询 范围 的 最 小 值 ， 也 就 是 下 界 ， 但 是 不 包含 临界 值 。 

e ge 大 于 等 于 ， 和 gt 的 区 别 在 于 包含 临界 值 。 

e lt 小 于 ， 查 询 范围 的 最 大 值 ， 也 就 是 上 界 ， 但 是 不 包含 临界 值 。 

e lte 小 于 等 于 ， 和 1t 的 区 别 在 于 包含 临界 值 。 

例如 ， 想 要 查询 价格 大 于 50 小 于 等 于 70 的 书籍 ， 即 50<price<=70， 构 造 查 询 语句 如 下 : 

GET books/_search 

{ 

"query": { 
"range": { 
"price": { 
"gt": 50, 
"Tte": 70 
} 
} 
} 
} 


查询 出 版 日 期 在 2016 年 1 月 1 日 和 2016 年 12 月 31 之 间 的 书籍 , 对 publish time 字段 进 
47 range 查询 ， 命 令 如 下 : 

GET books/_search 

{ 


"query": { 
"range" ; { 
"publish time" : { 
"gte": "2016-01-01", 
"Ate": "2016-12-31", 
"format": "yyyy-MM-dd" 


) 
) 


6.3.4 exists query 
exists 查询 会 返回 字段 中 至 少 有 一 个 非 空 值 的 文档 。 举 例 说 明 : 
{ 


"query": { 
"exists": { 
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以 下 文档 会 匹配 上 面 的 查询 : 

{ "user": "jane" } 有 user 字段 ， 且 不 为 空 。 

{ "user": " } 有 user 字段 ， 值 为 空 字 符 串 。 

{ "user": "-" } ”有 user 字段 ， 值 不 为 空 。 

{ "user": ["jane"] } 有 user 字段 ， 值 不 为 空 。 

{ "user": ["jane", null] Æ user 字段 ， 至 少 一 个 值 不 为 空 即 可 。 
面 的 文档 都 不 会 被 匹配 : 
e ("user" null} 虽然 有 user 字段 ， 但 是 值 为 空 。 
e {"user":[]} 虽然 有 user 字段 ， 但 是 值 为 空 。 
e = { "user": [null] } 虽然 有 user 字段 ， 但 是 值 为 空 。 
e {"foo": "bar"} 没有 user 字 段 。 


6.3.5 prefix query 


prefix 查询 用 于 查询 某 个 字段 中 以 给 定 前 级 开始 的 文档 , 比如 查询 title 中 含有 以 java 为 前 
级 的 关键 词 的 文档 ， 那 么 含有 java、javascript、javaee 等 所 有 以 java 开头 关键 词 的 文档 都 会 被 
匹配 。 查 询 description 字段 中 包含 有 以 win 为 前 组 的 关键 词 的 文档， 查询 语句 如 下 : 
GET books/_search 
{ 
"query": { 
"prefix": { 
"description": "win" 
} 
} 
} 


6.3.6 wildcard query 


wildcard query 中 文 译 为 通配符 查询 , 支持 单字 符 通配符 和 多 字符 通配符 ，? 用 来 匹配 一 个 任 
意 字符 ，* 用 来 匹配 零 个 或 者 多 个 字符 。 以 H?tland 为 例 ，Hatland、Hbtland 等 都 可 以 匹配 ， 但 是 
不 能 匹配 Htland，? 只 能 代表 一 位 。H*tland 可 以 匹配 Htland、Habctland 等 ，* 可 以 代表 0 至 多 个 
字符 。 和 prefix 查询 一 样 ，wildcard 查询 的 查询 性 能 也 不 是 很 高 ， 需 要 消耗 较 多 的 CPU 资源 。 

下 面 举 一 个 wildcard 查询 的 例子 ， 假 设 需 要 找 某 一 作者 写 的 书 ， 但 是 忘记 了 作者 名 字 的 
全 称 ， 只 记 住 了 前 两 个 字 ， 那 么 就 可 以 使 用 通配符 查询 ， 查 询 语句 如 下 : 

GET books/_search 

{ 

"query": { 
"wildcard": { 


196 从 Lucene 到 Elasticsearch: 全 文 检 索 实战 


"author": " 张 若 *" 


} 
6.3.7 regexp query 


Elasticsearch 也 支持 正则 表达 式 查 询 ， 通 过 regexp query 可 以 查询 指定 字段 包含 与 指定 正 
则 表达 式 匹 配 的 文档 。 可 以 代表 任意 字符 ,，“a.c.e” 和 “ab...” 都 可 以 匹配 “abcde”, a{3}b{3}、 
a{2,3}b{2,4}、a{2,} {2,} 都 可 以 匹配 字符 串 “aaabbb”。 
例如 需要 匹配 以 W 开头 紧 跟 着 数字 的 邮政 编码 , 使 用 正则 表达 式 查 询 构 造 查 询 语句 如 下 : 
GET _search 
{ 
"query": { 
"regexp": { 
"postcode": "W[0-9].+" 
} 
} 
} 


6.3.8 fuzzy query 


编辑 距离 又 称 Levenshtein 距离 ， 是 指 两 个 字 串 之 间 ， 由 一 个 转 成 另 一 个 所 需 的 最 少 编辑 
操作 次 数 。 许 可 的 编辑 操作 包括 将 一 个 字符 替换 成 另 一 个 字符 , 插入 一 个 字符 , 删除 一 个 字符 。 
fuzzy 查询 就 是 通过 计算 词 项 与 文档 的 编辑 距离 来 得 到 结果 的 ， 但 是 使 用 fuzzy 查询 需要 消耗 
的 资源 比较 大 ,查询 效率 不 高 ,适用 于 需要 模糊 查询 的 场景 。 举例 如 下 ， 用户 在 输入 查询 关键 
词 时 不 小 心 把 “javascript” 拼 成 “javascritp”， 在 存在 拼写 错误 的 情况 下 使 用 模糊 查询 仍然 可 
以 搜索 到 含有 “javascript” 的 文档 ， 查 询 语句 如 下 : 
GET books/_search 
{ 
"query": { 
"fuzzy": { 
"title": "javascritp" 
) 
) 
) 


6.3.9 type query 


type query 用 于 查询 具有 指定 类 型 的 文档 。 例 如 查询 Elasticsearch 中 type 73 IT 的 文档 , 查 
询 语 句 如 下 : 
GET _search 
{ 
"query": { 
"type" $i 
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6.3.10 ids query 


ids query 用 于 查询 具有 指定 id 的 文档 。 类 型 是 可 选 的 ， 也 可 以 省 略 ， 也 可 以 接受 一 个 数 
组 。 如 果 未 指定 任何 类 型 ， 则 会 搜索 索引 中 的 所 有 类 型 。 例 如 ， 查 询 类 型 为 IT, id 为 1、3、5 
的 文档 ， 查 询 语句 如 下 : 


GET books/_search 
{ 
"query": { 
"ids": if 
“type"s: "Ty", 
"values": Tul mg" "or ] 
} 
} 
} 


6.4 复合 查询 


复合 查询 就 是 把 一 些 简 单 查询 组 合 在 一 起 实现 更 复杂 的 查询 需求 ， 除 此 之 外 复合 查询 还 
可 以 控制 另外 一 个 查询 的 行为 。 
6.4.1 constant score query 

constant. score query 可 以 包装 一 个 其 他 类 型 的 查询 , 并 返回 匹配 过 滤器 中 的 查询 条 件 且 具 


有 相同 评分 的 文档 。 下 面 的 查询 语句 会 返回 title 字段 中 含有 关键 词 “java” 的 文档 ， 所 有 文档 
的 评分 都 是 1.2: 


GET books/_search 
{ 


"query": { 
"constant score" : { 
"filter" : ( 
"term" : ( "title" : "java") 


) 
"boost" : 1.2 
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6.4.2 bool query 


bool 查询 可 以 把 任意 多 个 简单 查询 组 合 在 一 起 ,使 用 must. should. must not. filter 选项 
来 表示 简单 查询 之 间 的 逻辑 ， 每 个 选项 都 可 以 出 现 0 次 到 多 次 ， 它 们 的 含义 如 下 : 
must ”文档 必须 匹配 must 选项 下 的 查询 条 件 ， 相 当 于 逻辑 运算 的 AND. 
should 文档 可 以 匹配 should 选项 下 的 查询 条 件 也 可 以 不 匹配 ， 相 当 于 逻辑 运算 的 OR. 
must not 与 must 相反 ， 匹 配 该 选项 下 的 查询 条 件 的 文档 不 会 被 返回 。 
filter 和 must 一 样 ， 匹 配 filter 选项 下 的 查询 条 件 的 文档 才 会 被 返回 ， 但 是 filter 不 评分 ， 
只 起 到 过 滤 功 能 。 

假设 要 查询 title 中 包含 关键 词 java， 并 且 price 不 能 高 于 70，description 可 以 包含 也 可 以 
不 包含 虚拟 机 的 书籍 ， 构 造 bool 查询 语句 如 下 : 

GET books/_search 

{ 


"query": { 
"bool": { 
"minimum should match": 1, 
"must": ( 
"mabób"; ( "title"; "java" 
}, 
"should": [ 
("match": ( "description": "虚拟 机 "}} 


l; 
"must not": ( 
"range": ("price": ("gte": 70}} 
) 
) 
) 
) 


6.4.3 dis max query 
dis max query ^j bool query 有 一 定 联系 也 有 一 定 区 别 ，dis_max query 支持 多 并 发 查询 ， 


可 返回 与 任意 查询 条 件 子 句 匹 配 的 任何 文档 类 型 。 与 bool 查询 可 以 将 所 有 匹配 查询 的 分 数 相 
结合 使 的 方式 不 同 ，dis_max 查询 只 使 用 最 佳 匹配 查询 条 件 的 分 数 。 请 看 下 面 的 例子 : 


GET /_search 
{ 


"query": { 
"dis max" è { 
"tie breaker" : 0.7, 


"boost" : 1.2, 
"queries" : [ 
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} 
6.4.4 function score query 


function score query 可 以 修改 查询 的 文档 得 分 ， 这 个 查询 在 有 些 情 况 下 非常 有 用 ， 比 如 通 
过 评分 函数 计算 文档 得 分 代价 较 高 , 可 以 改 用 过 滤器 加 自 定义 评分 函数 的 方式 来 取代 传统 的 评 
分 方式 。 
使 用 function score query， 用 户 需 要 定义 一 个 查询 和 一 至 多 个 评分 函数 ， 评 分 函数 会 对 查 
询 到 的 每 个 文档 分 别 计算 得 分 。 
下 面 这 条 查询 语句 会 返回 books 索引 中 的 所 有 文档 ,文档 的 最 大 得 分 为 5， 每 个 文档 的 得 
分 随机 生成 ， 权 重 的 计算 模式 为 相 乘 模式 。 
GET books/_search 
"query": { 
"function score": { 
"query": ( "match all": {} }, 
"boost": "5*, 
"random score": {}, 
"boost mode":"multiply" 


} 
} 
使 用 脚本 自 定义 评分 公式 ， 这 里 把 price 值 的 十 分 之 一 开 方 作为 每 个 文档 的 得 分 ， 查 询 语 
句 如 下 : 
GET books/_search 
{ 


"query": { 
"function score": { 
"query": { 


"match": ( "title": "java" ) 
b, 
"script score" : { 

"script" s 
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"inline": "Math.sqrt (doc['price'].value/10)" 


) 


} 
6.4.5 boosting query 


boosting 查询 用 于 需要 对 两 个 查询 的 评分 进行 调整 的 场景 ，boosting 查询 会 把 两 个 查询 封 
装 在 一 起 并 降低 其 中 一 个 查询 的 评分 。 下 面 通过 对 比 来 说 明 boosting 查询 的 用 法 ， 首 先 查 询 
books 索引 下 title 字段 中 含有 关键 词 python 的 文档 ， 结 果 如 图 6-5 所 示 ， 可 以 看 到 2014 年 出 
版 的 《python 基础 教程 》 这 本 书 的 评分 为 1.0131714，2016 年 出 版 的 《python 科学 计算 》 评 分 
为 0.6099695。 


Hay Semegs Help 


"2014-03-01", 
"EABPythonA[ CIE, BRWN, IRPU 


39 "2016-05-01", 
40 AL python, XE Ab ff AMRES J Amin 


图 6-5 不 使 用 boosting 查询 结果 


boosting 查询 包括 positive、negative 和 negative_boost 三 个 部 分 ，positive 中 的 查询 评分 保 
持 不 变 ，negative 中 的 查询 会 降低 文档 评分 ，negative_boost 指明 negative 中 降低 的 权 值 。 如 果 
我 们 想 对 2015 年 之 前 出 版 的 书 降低 评分 ， 可 以 构造 一 个 boosting 查询 ， 查 询 语句 如 下 。 


GET books/_search 
{ 
"query": { 
"boosting": { 
"positive": { 
"match": { 
"title": "python" 
} 
bs 
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"negative": { 
"range": { 
"publish time": { 
"lto"; "2015-01-01" 


) 
LE 
"negative boost": 0.2 


) 


) 

Boosting 查询 中 指定 了 抑制 因子 为 0.2，publish_time 的 值 在 2015-01-01 之 后 的 文档 得 分 
不 变 ，publish_time 的 值 在 2015-01-01 之 前 的 文档 得 分 为 原 得 分 的 0.2 倍 ， 查 询 结果 如 图 6-6 
所 示 。 


"Dev Tools. Wetry Seng Help 


Console 


1 |GET books/.search 
244 


6-05-01", 
"description": "S id python H d fre th BM d SER 
ythonig £35, 38 T Pythont ^ UK" 

H 

h 

H 


"2014-03-01", 
ABPythonA 18, MAMA, HI 


Fd 6-6 使 用 boosting 查询 结果 
6.4.6 indices query 


indices query 适用 于 需要 在 多 个 索引 之 间 进 行 查询 的 场景 ， 它 允许 指定 一 个 索引 名 字 列 表 
和 内 部 查询 。indices query 中 有 query 和 no match. query 两 部 分 ，query 中 用 于 搜索 指定 索引 
列表 中 的 文档 , no match query 中 的 查询 条 件 用 于 搜索 指定 索引 列表 之 外 的 文档 。 下 面 的 查询 
语句 实现 了 搜索 索引 books、books2 中 title 字段 包含 关键 字 javascript， 其 他 索引 中 title 字段 
包含 basketball 的 文档 ， 查 询 语句 如 下 : 


GET _search 
{ 
"query": { 
"indices": ( 
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"indices": [ "books","books2"], 
"query": ("match": ("title": "javascript"}}, 
"no match query": ("term": ("title": "basketball"]] 


6.5 KERTH 


在 Elasticsearch 这 样 的 分 布 式 系统 中 执行 全 SQL 风格 的 连接 查询 代价 昂贵 ,是 不 可 行 的 。 
相应 地 ， 为 了 实现 水 平 规模 地 扩展 ，Elasticsearch 提供 了 以 下 两 种 形式 的 join: 


e nested query (WEAH) 
SCR AY BE ELS CEU E, MEE BERI ez 9| S ERAR R, REOS So RT LIE 
一 条 独立 的 文档 被 查询 出 来 。 

€ has child query 〈 有 子 查询 ) 和 has parent query (有 父 查询 ) 
父子 关系 可 以 存在 单个 的 索引 的 两 个 类 型 的 文档 之 间 。has_child 查询 将 返回 其 子 文档 能 满 
足 特定 查询 的 父 文档 ， 而 has parent 则 返回 其 父 文档 能 满足 特定 查询 的 子 文档 。 


6.5.1 nested query 


文档 中 可 能 包含 嵌 套 类 型 的 字段 ， 这 些 字 段 用 来 索引 一 些 数组 对 象 ， 每 个 对 象 都 可 以 作 
为 一 条 独立 的 文档 被 查询 出 来 〈 用 苦 套 查询 ) 。 
PUT /my_index 
{ 
"mappings": { 
"typel" : { 
"properties" : ( 
"obj" X 
"type" : "nested" 
) 


) 
6.5.2 has child query 


文档 的 父子 关系 创建 索引 时 在 映射 中 声明 ,这 里 以 员工 (employee〉 和 工作 城市 Cbranch) 
Al, 它们 属于 不 同 的 类 型 ,相当 于 数据 库 中 的 两 张 表 ,如果 想 把 员工 和 他 们 工作 的 城市 关联 
起 来 ,需要 告诉 Elasticsearch 文档 之 间 的 父子 关系 , 这 里 employee 是 child type, branch 是 parent 
type， 在 映射 中 声明 ， 执 行 命令 : 
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PUT /company 


{ 
"mappings": { 
"branch": {}, 
"employee": (" parent": { "type": "branch"}} 
H 
H 


使 用 bulk api 索引 branch 类 型 下 的 文档 ， 命 令 如 下 : 


POST company/branch/ bulk 


{ "index": { "_id": "london" }} 

"name": "London Westminster", "city": "London", "country": "UK" } 

"index": ( " id": "liverpool" }} 

"name": "Liverpool Central", "city": "Liverpool", "country": "UK" } 
( “index: [ " id": "paris" J} 

"name": "Champs Élysées", "city": "Paris", "country": "France" } 
添加 员工 数据 : 


POST company/employee/_bulk 

"index": { " id": 1, "parent": "london" }} 

"name": "Alice Smith", "dob": "1970-10-24", "hobby": "hiking" ) 
"index": ( " id": 2, "parent": "london" }} 

"Mark Thomas", "dob "1982-05-16", "hobby": "diving" } 


{ " id": 3, "parent": "liverpool" }} 


"name": 


"index": 
"name": "Barry Smith", "dob": "1979-04-01", "hobby": "hiking" } 
"index": ( " id": 4, "parent 
"name": "Adrien Grand", "dob": "1987-05-11", "hobby": "horses" } 


通过 子 文档 查询 父 文档 要 使 用 has child 查询 。 例 如 , 搜索 1980 年 以 后 出 生 的 员工 所 在 的 
分 支 机 构 ,employee 中 1980 年 以 后 出 生 的 有 Mark Thomas 和 Adrien Grand, 他 们 分 别 在 london 
和 paris， 执 行 以 下 查询 命令 进行 验证 : 

GET company/branch/_search 

{ 

"query": { 
"has_child": { 
"type": "employee", 
"query": { 
"range": {"dob": {"gte": "1980-01-01"}} 


"paris" }} 
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搜索 哪些 机 构 中 有 名 为 “Alice Smith” 的 员工 ， 因 为 使 用 match 查询 ， 会 解析 为 “Alice” 
和 “Smith”， 所 以 Alice Smith 和 Barry Smith 所 在 的 机 构 会 被 匹配 ， 执 行 以 下 查询 命令 进行 
验证 : 


GET /company/branch/_search 
{ 
"query": { 
"has child": { 
"type": "employee", 
"score mode": "max", 


"query": {"match": { "name": "Alice Smith"}} 


} 


可 以 使 用 min_children 指定 子 文档 的 最 小 个 数 。 例 如 ， 搜 索 最 少 含有 两 个 employee 的 机 
构 ， 查 询 命令 如 下 : 


GET /company/branch/_search?pretty 
{ 
"query": { 
"has_child": { 
"type": "employee", 
"min children": 2, 


"query": ("match all": (]] 


) 
6.5.3 has parent query 


通过 父 文档 查询 子 文档 使 用 has parent 查询 。 比 如 ,搜索 哪些 employee 工作 在 UK, 查询 
命令 如 下 : 


GET /company/employee/_search 
{ 
"query": { 
"has parent": { 
"parent type": "branch", 
"query": {"match": ("country": "UK"}} 
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6.6 ”位置 查询 


Elasticsearch 可 以 对 地 理 位 置 点 geo. point 类 型 和 地 理 位 置 形状 geo. shape 类 型 的 数据 进行 
搜索 。 为 了 学 习 方便 , 这 里 准备 一 些 城市 的 地 理 坐 标 作为 测试 数据 ,每 一 条 文档 都 包含 城市 名 
称 和 地 理 坐 标 这 两 个 字段 , 这 里 的 坐标 点 取 的 是 各 个 城市 中 心 的 一 个 位 置 。 首先 把 下 面 的 内 容 
保存 到 geo.json 文件 中 : 

{"index":{ " index": "geo", " type"; "city", " id"; "1" }} 

("name" : "Ji", "Location":"39.9088145109,116.3973999023") 


i"index":[ " index"; "geo", " type"; "city", " id"; "2" }} 

{"name": "乌鲁木齐 ", "10cation":"43.8266300000,87.6168800000"] 
"index":( " index": "geo", " type": "city", " id": "3" }} 
"name" :"jjZ","1ocation":"34.3412700000,108.9398400000"] 
"index":( " index": "geo", " type": "city", " id": "4" }} 
"name": "HN", "Location":"34.7447157466,113.6587142944") 
"index":( " index": "geo", " type": "city", "_id": "5" }} 
"name": "fil", "Location":"30.2294080260,120.1492309570") 
"inde " dndex": "geo", "type"; "esty", " id"; "6" yl 


"name": "Jf Hj","10ocation":"36.6518400000,117.1200900000") 
创建 一 个 索引 并 设置 映射 : 


PUT geo 


"mappings": { 
"Gity" et 
"properties": { 

"name": { 
"type": "keyword" 

}, 

"location": { 
"type": "geo point" 


然后 执行 批量 导入 命令 : 


curl -XPOST "http://localhost:9200/_bulk?pretty" --data-binary @geo.json 
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6.6.1 geo distance query 
geo distance query 可 以 查找 在 一 个 中 心 点 指定 范围 内 的 地 理 点 文档 。 例 如 ， 查 找 距 离 天 


E 200km 以 内 的 城市 ， 搜 索 结果 中 会 返回 北京 ， 命 令 如 下 : 


GET geo/_search 
í 
"query": { 
"bool" p i{ 
"must" : { 
"match all" : {} 
}, 
"filter" t-f 
"geo distance" : ( 


I 


E 


"distance" : "200km", 
"location" : ( 
"lat" : 39.0851000000, 
"lon" : 117.1993700000 


) 
按 各 城市 离 北京 的 距离 排序 : 


GET geo/_search 
{ 
"query": { 
"match all": {} 
), 
"sort" [ 
{ 


" geo distance": { 


"location": "39.9088145109,116.3973999023", 


"units 


) 
6.6.2 geo bounding box query 
geo bounding box query 用 于 查找 落 入 指定 的 矩形 内 的 地 理 坐标 。 查 询 中 由 两 个 点 确定 一 
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个 矩形 ， 例 如 图 6-7 中 的 银川 和 南昌 ， 在 这 两 个 点 上 分 别 做 垂 线 〈 经 度 ) 和 平行 线 〈 纬 度 ) ， 
相交 线 会 组 成 一 个 矩形 区 域 。 执 行 下 面 的 查询 ， 可 以 查询 到 西安 和 郑州 这 两 个 城市 。 


6-7 银川 和 南昌 确定 的 矩形 


GET geo/_search 
{ 


"query": { 
"HOOL™ s if 
mausct" : ( 
"match all" : {} 
) 
"filter" è ( 
"geo bounding box" : ( 


"location" : ( 

"top left" : ( 
"lat" :38.4864400000, 
"lon" :106.2324800000 

) 

"bottom right" : { 
"lat" :28.6820200000, 
"lon" : 115.8579400000 
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6.6.3 geo polygon query 


geo polygon query 用 于 查找 在 指定 多 边 形 内 的 地 理 点 。 例 如 ， 呼 和 浩特 、 重 庆 、 上 海 三 
地 组 成 一 个 三 角形 ( 见 图 6-8) ， 查 询 位 置 在 该 三 角形 区 域内 的 城市 ， 命 令 如 下 : 


各 浩特 


北京 
* 


9 银川 


are 
9 兰州 
Ez] 
one 
ome 
9 长 沙 
图 6-8 呼和浩特、 重庆 和 上 海 确定 的 矩形 
GET geo/_search 
{ 
"query": { 
"bool" ; { 
"must" : ( 
"match all" : {} 
) 
"filter" s» { 
"geo polygon" : ( 
"location" : ( 


"points" s f 

("lat" : 40.8414900000, "lon" : 111.7519900000}, 
("lat" : 29.5647100000, "lon" : 106.5507300000], 
("lat" : 31.2303700000, "lon" : 121.4737000000} 


] 
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6.6.4 geo shape query 


geo shape query 用 于 查询 geo shape 类 型 的 地 理 数据 , 地 理 形状 之 间 的 关系 有 相交 、 包含 、 
不 相交 三 种 。 创 建 一 个 新 的 索引 用 于 测试 ， 其 中 location 字段 的 类 型 设 为 geo_shape 类 型 : 


PUT geoshape 
{ 
"mappings": { 
"cycym f 
"properties": ( 
"name": ( 
"type": "keyword" 
}, 
"location": { 


"type": "geo shape" 


关于 经 纬度 的 顺序 这 里 做 一 个 说 明 ，geo_point 类 型 的 字段 纬度 在 前 经 度 在 后 ， 但 是 对 于 
geo_shape 类 型 中 的 点 ， 是 经 度 在 前 纬度 在 后 ， 这 一 点 需要 特别 注意 。 
把 西安 和 郑州 连 成 的 线 写 入 索引 : 


POST geoshape/city/1 
{ 
"name": "西安 -郑州 "， 
"location" : { 
"type" : "linestring", 
"coordinates" : [[108.9398400000,34.3412700000], 
[113.6587142944,34.7447157466]] 


) 


查询 包含 在 由 银川 和 南昌 作为 对 角 线 上 的 点 组 成 的 矩形 的 地 理 形状 ， 由 于 西安 和 郑州 组 
成 的 直线 落 在 该 矩形 区 域内 ， 因 此 可 以 被 查询 到 。 命 令 如 下 : 


GET geoshape/_search 
{ 
"query": { 
"bool": { 
"must": { 
"match all": {} 
}, 
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"filter": f 
"geo shape": ( 
"location". d 
"shape": ( 
"type": "envelope", 
"coordinates": [ 
[106.23248, 38.48644], 
[115.85794, 28.68202] 
] 


}, 
"relation": "within" 


67 ”特殊 查询 


6.7.1 more like this query 
more like this query 可 以 查询 和 提供 文本 类 似 的 文档 ， 通 常用 于 近似 文本 的 推荐 等 场景 。 
查询 命令 如 下 : 


GET books/_search 
{ 


"query": { 
"more like this" : { 
"fields" : ["title", "description"], 
"like" : "java virtual machine", 
"min term freq" : 1, 
"max query terms" : 12 
} 
} 
} 
可 选 的 参数 及 取 值 说 明 如 下 : 


fields ”要 匹配 的 字段 ， 默 认 是 _all 字段 。 

like ”要 匹配 的 文本 。 

min term freg 文档 中 词 项 的 最 低频 率 ， 默 认 是 2， 低 于 此 频率 的 文档 会 被 忽略 。 
max_query_terms query 中 能 包含 的 最 大 词 项 数目 ， 默 认为 25。 
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min doc freq 最 小 的 文档 频率 ， 默 认为 5。 

max doc freq 最 大 文档 频率 。 

min word length 单词 的 最 小 长 度 。 

max_word length 单词 的 最 大 长 度 。 

stop words ” 停 用 词 列表 。 

analyzer 分 词 器 。 

minimum_should_match ”文档 应 匹配 的 最 小 词 项 数 ， 默 认为 query 分 词 后 词 项 数 的 30%。 
boost terms ” 词 项 的 权重 。 
include 是 否 把 输入 文档 作为 结果 返 
boost ”整个 query 的 权重 ， 默 认为 1.0。 


EJ 


6.7.2 script query 
Elasticsearch 支持 使 用 脚本 进行 查询 。 例 如 ， 查 询 价格 大 于 80 的 文档 ， 命 令 如 下 : 


GET books/_search 
{ 
"query": { 
"bool": { 
"must": [ 
f 


"S6ript": f 


“scraper: { 
"inline": "doc['price'].value > 80", 


"lang": "painless" 


6.7.3 percolate query 


一 般 情 况 下 ， 我 们 是 先 把 文档 写 入 到 Elasticsearch 中 ， 通 过 查询 语句 对 文档 进行 搜索 。 
percolate query 则 是 反 其 道 而 行 之 的 做 法 , 它 会 先 注册 查询 条 件 , 根据 文档 来 查询 query. 例如 ， 
在 my-index 索引 中 有 一 个 laptop 类 型 ， 文 档 有 price 和 name 两 个 字段 ， 在 映射 中 声明 一 个 
percolator 类 型 的 query， 命 令 如 下 : 


PUT my-index 
{ 
"mappings": { 
"laptop": { 
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"properties": { 
"price": ("type": "long"), 


"name":("type": "text") 


"queries": ( 
"properties": ( 
"query": {"type": "percolator"] 


H 
注册 一 个 bool query, bool query 中 包含 一 个 range query, ER price 字段 的 取 值 小 于 等 于 


10000， 并 且 name 字段 中 含有 关键 词 macbook: 


PUT /my-index/queries/1?refresh 


{ 


"query": { 
"hool": f 
"muse", [ 
{"range": ("price": ("lte": 10000}}}, 
( "match": ("name": "macbook" } } 
] 
) 
) 
) 
通过 文档 查询 query: 


GET /my-index/_search 
{ 
"query" : ( 
"percolate" : ( 
"field" : "query", 
"document type" : "laptop", 
"document" : ( 
"price" : 9999, 
"name":"macbook pro on sale" 


} 
文档 符合 query 中 的 条 件 ， 返 回 结果 中 可 以 查 到 上 文中 注册 的 bool query. percolate query 


的 这 种 特性 适用 于 数据 分 类 、 数 据 路 由 、 事 件 监控 和 预警 等 场景 。 


E 
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6.8 搜索 高 亮 


68.1 自 定义 高 亮片 段 


在 前 面 的 基本 查询 中 ， 我 们 简单 地 使 用 了 高 亮 功能 标记 查询 关键 字 ，Elasticsearch 默认 会 
用 <em></em> 标 签 标记 关键 字 。 如果 我 们 想 使 用 自 定义 标签 , 在 高 亮 属性 中 给 需要 高 亮 的 字段 
加 上 pre_tags 和 post_tags 即 可 。 例 如 ， 搜索 ide 字段 中 包含 关键 词 javascript 的 书籍 并 使 用 自 
定义 HTML 标签 高 亮 关键 词 ， 查 询 语 句 如 下 : 


GET books/_search 
{ 


"query": { 


"match": { "title": "javascript"} 
}, 
"highlight": { 
"fields": { 
"title"vs 4 
"pre tags": ["<strong>"], 
"post tags": ["</strong>"] 
) 
) 
) 
) 


682 ”多 字段 高 亮 


关于 搜索 高 亮 ， 还 需要 掌握 如 何 设置 多 字段 搜索 高 亮 。 比 如 ， 搜 索 dde 字段 的 时 候 ， 我 
们 期 望 description 字段 中 的 关键 字 也 可 以 高 亮 ， 这 时 候 就 需要 把 require field match 属性 的 取 
值 设置 为 fasle。require_field_match 的 默认 值 为 ttue， 只 会 高 亮 匹 配 的 字段 。 多 字段 高 亮 的 查 
询 语句 如 下 : 


GET books/_search 
{ 


"query": { 
"match": { 
"title": "javascript" 
} 

}, 

"highlight": { 
"require field match": false, 
"fields": ( 

"titlen: (y 
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"description": {} 


} 
6.8.3 ”高 亮 性 能 分 析 

Elasticsearch 提供 了 三 种 高 亮 器 ,分 别 是 默认 的 highlighter 高 亮 器 、postings-highlighter 高 
亮 器 和 fast-vector-highlighter 高 亮 器 。 

默认 的 highlighter 是 最 基本 的 高 亮 器 .highlighter 高 亮 器 实现 高 亮 功能 需要 对 _source 中 保 
存 的 原始 文档 进行 二 次 分 析 ， 其 速度 在 三 种 高 亮 器 里 最 慢 ， 优 点 是 不 需要 额外 的 存储 空间 。 

postings-highighlighter 高 亮 器 实现 高 亮 功能 不 需要 二 次 分 析 ， 但 是 需要 在 字段 的 映射 中 设 
置 index options 参数 的 取 值 为 offsets， 即 保存 关键 词 的 偏 移 量 ， 速 度 快 于 默认 的 highlighter 
高 亮 器 。 例 如 ， 配 置 comment 字段 使 用 postings-highighlighter 高 亮 器 ， 映 射 如 下 : 

PUT /example 

{ 

"mappings": { 
"doe" is; d 


"properties": ( 


"comment" : ( 
"type": "text", 
"index options" : "offsets" 


fast-vector-highlighter 高 亮 器 实现 高 亮 功能 速度 最 快 ， 但 是 需要 在 字段 的 映射 中 设置 
term. vector 参数 的 取 值 为 with_positions_offsets， 即 保存 关键 词 的 位 置 和 偏 移 信息 ， 占 用 的 存 
储 空间 最 大 , 是 典型 的 空间 换 时 间 的 做 法 。 例 如 , 配置 comment 字段 使 用 fast-vector-highlighter 
高 亮 器 ， 映 射 如 下 : 
PUT /example 
{ 
"mappings": { 
"doe" è { 
"properties": { 
"comment" : ( 
"type": "text", 


"term vector" : "with positions offsets" 
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6.9 搜索 排序 


6.9.1 默认 排序 


Elasticsearch 是 按照 查询 和 文档 的 相关 度 进行 排序 的 ， 默 认 按 评分 降序 排序 ， 搜 索 title 字 
段 中 包含 java 关键 词 的 文档 : 


GET books/_search 
{ 
"query": { 
"term": { "title": "java"} 
} 
H 


SMF: 


GET books/_search 
{ 


"query": { 
"term": {"title": "java"} 
} 
Ee qm 
(" score"; ("order": "desc"}} 


] 

) 

对 于 match. all query 而 言 ， 由 于 只 返回 所 有 文档 , 不 需要 评分 , 文档 的 顺序 为 添加 文档 的 
顺序 。 如 果 需 要 改变 match all query 的 文档 返回 顺序 ， 可 以 对 _doc 进行 排序 。 例 如 ， 返 回 最 
后 添加 的 那 条 文档 ， 可 以 对 _doc 降序 排序 ， 设 置 返回 文档 条 数 为 1， 命令 如 下 : 

GET books/_search 


{ 


"size":1, 


"query": { 
"match all": {} 
» 
"sort": [(" doc": { "order": "desc" }} 
1 
) 


6.9.2 ”多 字段 排序 


和 SQL 类 型 ，Elasticsearch 也 支持 多 字段 排序 。 例 如 ， 先 按 价 格 降序 排序 ， 价 格 相等 的 按 
照 出 版 年 份 升序 排序 ， 命 令 如 下 : 
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GET books/_search 
{ 
"sort": [ 
{"price": { "order": "desc") ), 
{"year": {"order": "asc"}} 
J 
} 


693 分 片 影 响 评分 


Elasticsearch 5.4 之 后 对 于 text 类 型 的 字段 ， 默 认 采 用 的 是 BM25 评分 模型 ， 而 不 是 基于 
tf-idf 的 向 量 空间 模型 , 评分 模型 的 选择 可 以 通过 similarity 参数 在 映射 中 指定 。 需 要 注意 的 是 ， 
Elasticsearch 是 在 每 一 个 分 片上 单独 打分 的 ， 分 片 的 数量 会 影响 打分 的 结果 。 

下 面 进行 分 片 对 评分 影响 的 测试 , products 索引 product 类 型 下 的 name 字段 , 数据 类 型 为 
text 文本 类 型 ， 分 词 器 为 ik_smart， 评 分 模型 为 攻 idf， 索 引 的 分 片 数 为 1， 执行 以 下 创建 索引 
的 命令 : 

PUT Products 

{ 

"settings": { 
"number of shards": 1 
}, 
"mappings": { 
"product": { 
"properties": { 
"name": { 
"type": "text", 
"analyzer": "ik_smart", 


"similarity": "classic" 


写 入 三 条 测试 文档 : 
PUT products/product/1 
("name" : "Er" ) 


PUT products/product/2 
{"name": "FFIEIAGK" ) 


PUT products/product/3 
( "name" : "REL" ) 
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match query 搜索 关键 词 “ 柠 檬 ”: 


POST products/_search 
{ 


"query": 1 
"match": ( 
"name"; "HE" 
} 
} 
} 
评分 结果 : 
{ 
PRLS: X 
"total": 2, 
"max score": 1.658125, 
"hits": [ 
{ 
" index": "products", 
" type": "product", 
ECL 
" score": 1.658125, 
" source": ( 
"name": "iTi" 
) 
) 
t 
" index": "products", 
" type": "product", 
n ddnp "am, 
" score": 1.0363282, 
" source": ( 
"name": "柠檬 汽水 " 
} 
} 
] 
i 
H 


删除 索引 ， 分 片 数 改 为 3， 重 复 上 述 操作 ， 评 分 结果 : 


{ 
mates if 
"total: 2, 
"max score": 1.9753323, 
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"habs" [ 
{ 
" index": "products", 
" type": "product", 
Tigne nq, 
" Score": 1.9753323, 
" source": ( 
"name": "Fi" 
) 
}, 
{ 
" index": "products", 
" type": "product", 
" Lg" "2". 
" score": 0.625, 


" source": ( 


"name": "柠檬 汽水 " 


对 比 就 可 以 发 现 ， 分 片 数 的 改变 会 影响 文档 的 评分 结果 ， 原 因 就 是 打分 是 在 每 个 分 片上 
单独 进行 的 。 同 时 ， 分 词 器 也 会 影响 评分 ,原因 是 使 用 不 同 的 分 词 器 会 使 倒 排 索引 中 的 词 项 数 
发 生 改 变 ， 最 终 影响 评分 。 


6.10 “本章 小 结 


全 文 搜索 是 Elasticsearch 的 强项 ， 本 章 首先 演示 了 Elasticsearch 的 搜索 机 制 ， 之 后 介绍 了 
Elasticsearch 全 文 查询 、 词 项 查询 、 复 合 查询 、 娠 套 查询 、 位 置 查询 、 特 殊 查 询 以 及 搜索 高 亮 
和 搜索 排序 。 


聚合 分 析 


众所周知 ，Elasticsearch 是 一 个 分 布 式 的 全 文 搜索 引擎 ， 索 引 和 搜索 是 Elasticsearch 的 基 
本 功能 。 事 实 上 ，Elasticsearch 的 聚合 (Aggregations) 功能 也 十 分 强大 ， 人 允许 在 数据 上 做 复杂 
的 分 析 统 计 。Elasticsearch 提供 的 聚合 分 析 功 能 主要 有 指标 聚合 、 桶 聚合 、 管 道 聚 合算 阵 聚 
合 四 大 类 ,管道 聚合 和 矩阵 聚合 官方 说 明 是 在 试验 阶段 ， 后 期 会 完全 更 改 或 者 移 除 ， 这 里 不 再 
HY Es Ra A ER AE AT EME. FEM VA books 索引 中 的 数据 为 例 ， 介 绍 在 Elasticsearch 中 
进行 聚合 分 析 。 


7.1.1 Max Aggregation 
Max Aggregation 用 于 最 大 值 统计 。 例 如 ， 统 计 books 索引 中 价格 最 高 的 是 哪 本 书 ， 查 询 语 
名 如下: 


GET books/_search 
{ 


"size"; D; 
"aggs": ( 
"max price": ( 
"max": ["field": "price"] 
) 
} 
} 
聚合 结果 如 下 : 
{ 


"aggregations": { 
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"max price": { 
"value": 81.4 


) 
7.1.2 Min Aggregation 


Min Aggregation 用 于 最 小 值 统计 。 例 如 ， 统 计 books 索引 中 最 早出 版 的 是 哪 本 书 ， 查 询 语句 
如 下 : 


GET books/_search 
{ 
"size": 0; 
"aggs": ( 
"min year": { 
"min": ( 
"field": "publish time" 
) 


) 
聚合 结果 如 下 : 
{ 


"aggregations": { 
"min year": { 
"value": 1191196800000, 
"value as string": "2007-10-01T00:00:00.0002" 
) 


) 
7.1.3 Avg Aggregation 


Avg Aggregation 用 于 计算 平均 值 。 例 如 ， 计 算 books 索引 中 所 有 书 的 平均 价格 ， 查 询 语 
句 如 下 : 


GET books/_search 
{ 
"size": 0, 
"aggs": { 
"avg price": { 
"awg": i"field": “price™} 
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聚合 结果 如 下 : 
{ 


"aggregations": { 
"avg price": { "value": 63.8} 
} 
H 


7.1.4 Sum Aggregation 
Sum Aggregation 用 于 计算 总 和 。 例 如 ， 计 算 books 索引 中 所 有 书 的 总 价 ， 查 询 语 句 如 下 : 


GET books/_search 
{ 
"size": 0, 
"aggs": { 
"sum price": { 


"sum": ("field": "price"} 


"aggregations": ( 
"sum price": ( 
"value": 319 
) 
) 
) 


7.1.5 Cardinality Aggregation 
Cardinality Aggregation 用 于 基数 统计 ， 其 作用 是 先 执行 类 似 SQL 中 的 distinct 操作 ,去 掉 


集合 中 的 重复 项 ， 然 后 统计 排 重 后 的 集合 长 度 。 例 如 ， 在 books 索引 中 对 language 字段 进行 
cardinality 操作 可 以 统计 出 编程 语言 的 种 类 数 ， 查 询 语句 如 下 : 


GET books/_search 
{ 


"size": 0; 
"aggs": { 
"all lan": { 


"cardinality": {"field": "language"} 
$ 
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聚合 结果 如 下 : 
{ 
"aggregations": { 
"all lan": [*value": 3) 
} 


7.1.6 Stats Aggregation 


Stats Aggregation 用 于 基本 统计 ， 会 一 次 返回 count, max, min, avg 和 sum 这 5 个 指标 。 
例如 ， 在 books 索引 中 对 price 字段 进行 基本 统计 ， 查 询 语句 如 下 : 


GET books/_search 
{ 
"Size": 0, 
"aggs": { 
"grades stats": ( 


"stats": ("fleld"; "price") 


) 

聚合 结果 如 下 : 

{ 

"aggregations": { 
"grades stats": { 

mount”: 5; 
"min": 46.5, 
"max": 81.4, 
"avg": 63.8, 
"sum": 319 


) 
7.1.7 Extended Stats Aggregation 


Extended Stats Aggregation 用 于 高 级 统计 ， 和 基本 统计 功能 类 似 ， 但 是 会 比 基 本 统计 多 4 
个 统计 结果 : 平方 和 、 方差 、 标 准 差 、 平 均值 加 / 减 两 个 标准 差 的 区 间 。 对 books 索引 中 的 price 
字段 进行 高 级 统计 ， 查 询 语句 如 下 : 
GET books/_search 
{ 
"size": 0, 


"aggs": ( 
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"grades stats": { 


"extended stats": ("field": "price"] 


) 


) 
聚合 结果 如 下 : 
{ 


"aggregations": { 
"grades stats": { 

"Goünt"s 5; 

"nin": 46.5, 

"max": 81.4, 

"avg": 63.8, 

"sum": 319, 

"sum of squares": 21095.46, 

"variance": 148.65199999999967, 

"std deviation": 12.19229264740638, 

"std deviation bounds": ( 
"upper": 88.18458529481276, 
"lower": 39.41541470518724 


) 
7.1.8 Percentiles Aggregation 


Percentiles Aggregation 用 于 百 分 位 统计 。 百 分 位 数 是 一 个 统计 学 术语 ， 如 果 将 一 组 数据 从 
大 到 小 排序 , 并 计算 相应 的 累计 百 分 位 , 某 一 百 分 位 所 对 应 数据 的 值 就 称 为 这 一 百 分 位 的 百 分 
位 数 。 例 如 ， 对 books 索引 中 的 price 字段 进行 百 分 位 统计 ， 查 询 语句 如 下 : 
GET books/_search 
{ 
"size": 0, 
"aggs": ( 
"book price": { 
"percentiles": ("field": "price"} 


? 
聚合 结果 如 下 : 


t 
"aggregations": ( 
"book price": ( 
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"values": 


“E0 
"5.0 
"25; 
"50. 
"77545 
"95; 
"99. 


) 
} 
} 
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Os 
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8 


o 
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48.1, 
54. 
66. 
225 
79. 
.95200000000001 
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4, 


16, 


7.1.9 Value Count Aggregation 


Value Count Aggregation 可 按 字 段 统计 文档 数量 。 例 如 ， 统 计 books 索引 中 包含 author 字 
段 的 文档 数量 ， 查 询 语句 如 下 : 


POST books/_search 


{ 
"size": 0 


"aggs": { 


" 


"doc count": 


"value count": ( 


"field": 


) 
) 
} 
} 


聚合 结果 如 下 : 


{ 


"author" 


"aggregations": 


"doc count": 


"value": 


) 
} 
) 


Bucket 可 以 到 


5 


7.2 MRE 


E 解 为 一 个 桶 ， 它 会 遍历 文档 中 的 内 容 ， 凡 是 符合 某 一 要 求 的 就 放 入 一 个 桶 中 ， 


分 桶 相当 于 SQL 中 的 group by。 以 books 索引 中 的 图 书 为 例 ,一 本 书 会 被 划分 到 科技 类 、 经 济 类 
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或 者 其 他 分 类 中 ， 那么 科技 类 图 书 就 是 一 个 桶 ， 经 济 类 图 书 也 是 一 个 桶 ， 桶 就 是 符合 某 一 划分 标 
准 的 文档 集合 。 
7.2.1 Terms Aggregation 


Terms Aggregation 用 于 分 组 聚合 .例如 , 根据 language 字段 对 books 索引 中 的 文档 进行 分 组 ， 
统计 属于 各 编程 语言 的 书 的 数量 ， 构 造 查 询 语句 如 下 : 
POST books/_search?size=0 
{ 
"aggs": 1 
"per count": { 


"terms": ( 


"field": "language" 


) 
聚合 结果 如 下 : 
{ 


"aggregations": { 
"per count": { 
"doc count error upper bound": 0, 
"sum other doc count": 0, 
"buckets": [ 


"key": "java", 
"doc count": 2 
j 


"key": "python", 
"doc count": 2 
}, 


"key": "javascript", 
"doc count": 1 


] 
) 
) 
) 


在 terms 分 桶 的 基础 上 ， 还 可 以 对 每 个 桶 进行 指标 聚合 。 例 如 ， 想 统计 每 一 类 图 书 的 平均 价 
格 ， 可 以 先 按照 language 字段 进行 Terms Aggregation， 再 进行 Avg Aggregation， 查 询 语句 如 下 : 
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POST books/_search?size=0 


t 
"aggs": ( 
"per count": ( 
"terms": ("field": "language"}, 
"aggs": ( 
"avg price": ( 
"avg": {"field": "price"] 
) 
} 
} 
} 
} 
聚合 结果 如 下 : 
{ 
"aggregations": { 


"per count"; { 
"doc count error upper bound": 0, 
"sum other doc count": 0, 
"buckets": [ 
{ 
"key": "java", 
"doc count": 2, 
"avg price": ( 
"value": 58.35 
) 
) 
t 
"key": "python", 
"doc count": 2, 
"avg price": ( 
"value": 67.95 


"key": "javascript", 

"doc count": 1, 

"avg price": ( 
"value": 66.4 
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7.2.2 Filter Aggregation 
Filter Aggregation 是 过 滤器 聚合 , 可 以 把 符合 过 滤器 中 的 条 件 的 文档 分 到 一 个 桶 中 。 例如 ， 
计算 title 字段 中 含有 关键 词 Java 的 文档 的 平均 值 ， 查 询 语句 如 下 : 


POST books/_search?size=0 


{ 


"aggs" sd 
"java avg price" : ( 
"filter" s; [ "term": [ "title": "jaya" } fy 
"aggs" : { 
"avg price" : ( "avg" : ( "field" : "price" ) ) 
) 
b 
) 
) 
聚合 结果 如 下 : 
{ 
"aggregations": { 


"java avg price": { 
"doc count": 2, 
"avg price": ( 

"value": 58.35 


) 
7.2.3 Filters Aggregation 


Filters Aggregation 是 多 过 滤器 聚合 ， 可 以 把 符合 多 个 过 滤 条 件 的 文档 分 到 不 同 的 桶 中 。 
下 面 命令 中 filters 中 包含 两 个 match query, 对 每 个 query 的 查询 结果 进行 分 组 统计 ， 查 询 语句 
如 下 : 


POST books/_search?size=0 
{ 
"aggs": { 
"per avg price": { 
"filters": f 
"filters": [ 

("match": ["title": "java") }, 
{ "match": ("title": "python"}} 
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}, 
"aggs": { 


"avg price": 


) 
聚合 结果 如 下 : 
{ 


"aggregations": { 
"per avg price": 
"buckets": [ 
{ 


{"avg": {"field": "price"}} 


{ 


"doc count": 2, 


"avg price": { 


"value": 
) 
}, 
{ 


58.35 


"doc count": 2, 


"avg price": ( 


"value": 


67.95 


7.2.4 Range Aggregation 


Range Aggregation 是 范 


照 价格 区 间 在 0-50. 50-80. 80 以 上 进行 范 


HRE, HFE 


POST books/_search?size=0 


{ 


"aggs": { 
"price ranges": { 
"range": { 
"field": "price", 


"ranges": [ 
("to"s ‘SOF 


{"from": 50,"to": 80}, 


决 数据 的 分 布 情况 。 比 如 ， 对 books 索引 中 的 图 书 按 
围 聚合 ， 查 询 语句 如 下 : 
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{"from": 80} 


注意 三 个 区 间 的 临界 值 ， 第 一 段 是 统计 价格 小 于 50， 第 二 段 是 统计 价格 大 于 等 于 50 且 小 于 
80， 第 三 段 是 价格 大 于 等 于 80。 
聚合 结果 如 下 : 


{ 
"aggregations": { 
"price ranges": { 
"buckets": [ 
i 
"key"; "*=50.0"; 
"EO*: 50; 
"doc count": 1 
) 
f 
"key": "50.0-80.0", 
"from": 50; 
"to": 80, 
"doc count": 3 
) 
{ 
"key": "80.0-*", 
"from": 80, 


"doc count": 1 


Range Aggregation 不 仅 可 以 对 数值 型 字段 进行 范围 统计 ， 也 可 以 作用 在 日 期 类 型 上 。 例 
如 ， 按 图 书 的 出 版 日 期 进行 范围 聚合 ， 分 为 2013 年 9 月 1 日 之 前 、2013 年 9 月 1 日 至 2014 
年 9 月 1 日 、2014 年 9 月 1 日 之 后 三 个 区 间 ， 查 询 语句 如 下 : 


POST books/_search?size=0 
{ 
"aggs": { 
"range": { 
"date range": { 
"field": "publish time", 
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"format": "yyyy-MM-dd", 


"ranges": [ 


} 


{ 
"to^; "2013=09=01™ 
ty 
{ 
"from": "2013-09-01", 
"bo" "2014-09-01" 
}, 
{ 
"from": "2014-09-01" 


聚合 结果 如 下 : 


"aggregations": { 


"range": { 
"buckets": [ 


f 


"key": "*-2013-09-01", 

"to": 1377993600000, 

"to as string": "2013-09-01", 
"doc count": 3 


"key": "2013-09-01-2014-09-01", 
"from": 1377993600000, 
"from as string": "2013-09-01", 
"to": 1409529600000, 

"to as string": "2014-09-01", 
"doc count": 1 


"key": "2014-09-01-*", 

"from": 1409529600000, 
"from as string": "2014-09-01", 
"doc count": 1 


7.2.5 Date Range Aggregation 


Date Range Aggregation 专门 用 于 日 期 类 型 的 范围 聚合 ， 和 Range Aggregation 的 区 别 在 于 
日 期 的 起 止 值 可 以 使 用 数学 表达 式 。 例 如 , 对 books 索引 中 文档 的 出 版 日 期 进行 日 期 范围 聚合 ， 
第 一 个 范围 在 两 年 前 ， 第 二 个 范围 是 从 两 年 前 到 现在 ， 查 询 语句 如 下 : 

POST books/_search?size=0 

{ 


ein 


"aggs": ( 
"range": ( 
"date range": ( 
"field": "publish time", 
"format": "yyyy-MM-dd", 
[ 
{ "to": "now-24M/M" }, 
{ "from": "now-24M/M" } 


"ranges 


"aggregations": ( 
"range": ( 
"buckets": [ 

{ 
"key"; "*-2015-09-01", 
"to": 1441065600000, 
"to as string": "2015-09-01", 
"doc count": 4 

) 

{ 
"key": "2015-09-01-*", 
"from": 1441065600000, 
"from as string": "2015-09-01", 
"doc count": 1 
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7.2.6 Date Histogram Aggregation 
Date Histogram Aggregation 是 时 间 直方 图 聚合 , 常用 于 按照 日 期 对 文档 进行 统计 并 绘制 条 
形 图 。 例如， 对 books 索引 中 的 图 书 和 出 版 日 期 按 月 做 时 间 直 方 图 聚合 ， 聚 合 命令 如 下 : 


POST books/_search?size=0 


{ 


"aggs" : { 
"books over time" : ( 
"date histogram" : ( 
"field" : "publish time", 


"interval" : "month" 


} 
聚合 结果 如 下 : 
( 


"aggregations": ( 
"books over time": ( 
"buckets": [ 
{ 
"key as string": "2007-10-01T00:00:00.0002", 
"key": 1191196800000, 
"doc count": 1 


"key as string": "2016-05-01T00:00:00.0002", 
"key": 1462060800000, 
"doc count": 1 


由 于 测试 文档 数量 较 少 ， 数 据 分 布 比较 稀疏 ， 因 此 统计 效果 不 明显 。 图 7-1 是 日 志 处 理 项 
目 中 按 天 统计 日 志 数量 并 绘制 直方 图 的 效果 。 
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图 7-1 时 间 直 方 图 聚合 效果 图 
7.2.7 Missing Aggregation 


Missing Aggregation 是 空 值 聚合 ， 可 以 把 文档 集中 所 有 缺失 字段 的 文档 分 到 一 个 桶 中 。 例 
如 ， 对 books 索引 中 缺失 price 字段 〈 包 含 取 值 为 null) 的 文档 进行 聚合 ， 查 询 语 句 如 下 : 


POST books/_search?size=0 
{ 
"aggs" : { 
"books without a price" : ( 
"missing" : ( "field" : "price" ) 


) 


} 
聚合 结果 如 下 : 


{ 
"aggregations": { 
"books without a price": { 
"doc count": 0 
) 
) 
) 


7.2.8 Children Aggregation 
Children Aggregation 是 一 种 特殊 的 单 桶 聚合 ， 可 以 根据 父子 文档 关系 进行 分 桶 。 在 第 6 章 
学 习 父 子 文档 查询 时 ， 在 company 索引 中 指定 了 employee 类 型 的 父 文档 为 branch， 了 映射 如 下 : 


PUT /company 
{ 
"mappings": { 
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"branch": {}, 


"employee": {" parent": { "type": "branch"}} 


} 
利用 Children Aggregation 统计 子 类 型 为 employee 的 文档 数量 ， 查 询 语句 如 下 : 


POST company/_search?size=0 
{ 
"aggs": { 
"to-answers": { 
"children": ( 


"type": "employee" 


"aggregations": ( 
"to-answers": ( 


"doc count": 4 


) 
7.2.9 Geo Distance Aggregation 


Geo Distance Aggregation 用 于 对 地 理 点 (geo_poinb 做 范围 统计 。 例 如 ， 以 西安 为 中 心 ， 分 
别 统计 距离 范围 在 500km 以 内 、500km 和 1000km 之 间 、1000km 以 外 的 城市 , 查询 语句 如 下 : 


POST geo/_search?size=0 
{ 
"aggs": { 
"city from xi'an": { 


"geo distance": ( 


"field": "location", 
"origin "34.3412700000,108.9398400000", 
“aait”: ", 


"ranges": [ 
t 
"to": 500 
) 
{ 
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"from"; 500, 
"to": 1000 
}, 
{ 
"from": 1000 
} 
] 
} 
} 
} 
} 
聚合 结果 如 下 : 
{ 
"aggregations": { 


"city from xi'an": { 
"buckets": [ 
{ 
"key": "*-500.0", 
"fron": 0, 
"to": 500, 


"doc count": 2 


"key": "500.0-1000.0", 
"from": 500; 
"to"; 1000, 
"doc count": 2 
}, 
{ 
"key": "1000.0-*", 
"from": 1000, 
"doc count": 2 


) 
7.2.10 IP Range Aggregation 
IP Range Aggregation 用 于 对 IP 类 型 数据 范围 聚合 。 例 子 如 下 


POST ip_test/_search?size=0 
{ 
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"aggs" : { 
"ip ranges" : { 
"ip range" : { 
"field" z "ip", 
"ranges" : [ 
( "tO" g "T0.0.0:5" fe 
( "from"; "10:0,.0.5* } 


} 
聚合 结果 如 下 : 
{ 


"aggregations": { 
"ip ranges": { 
"buckets": [ 
{ 
"tor: TiO OS 
"doc count": 2 
) 
t 
"from": *"10.0.04.5", 


"doc count": 1 


7.3 本 章 小 结 


KEMAT Elasticsearch 的 聚合 分 析 功 能 ， 通 过 实例 展示 了 指标 聚合 和 桶 聚合 的 具体 用 
法 。 在 实时 大 数据 分 析 方面 ， 越 来 越 多 的 分 布 式 系统 使 用 了 Elasticsearch. 


Elasticsearch Java API 


本 章 学 习 要 点 : 

*k Java API 的 功能 * 如 何 进行 文档 的 CRUD 

* 如 何 创 建 Maven 工程 * 各 种 搜索 API 

Fe 如 何 连接 到 集群 * 使 用 Java API 进行 索引 管理 和 集群 管理 


8.4 Java API 简介 


我 们 在 前 面 提 到 过 Elasticsearch 底层 依赖 于 Lucene 库 ， 而 Lucene 库 完 全 是 Java 编写 的 ， 
RESTful API 发 送 的 请 求 最 后 都 是 通过 Java 执行 的 。 就 可 行 性 来 讲 ，Java API 比 RESTful API 
功能 更 强大 。 不 论 是 文档 的 CRUD、 查 询 、 批 量 操作 、 统 计 操作 ， 还 是 获取 集群 信息 、 索 引 
和 集群 管理 ，RESTful API 能 做 的 Java API 都 能 做 。 

所 有 的 Elasticsearch 操作 都 是 通过 一 个 客户 端 对 象 来 执行 的 。 无 论 是 接收 一 个 侦 听 器 ,还 
是 返回 一 个 结果 ， 所 有 的 操作 都 是 完全 异步 的 。 除 此 之 外 ， 客 户 端 上 的 操作 可 以 累加 ， 通 过 
Bulk 端点 批量 执行 。 我 们 发 送 的 客户 端 请 求 在 Elasticsearch 内 部 最 终 都 是 通过 Java API 执 
行 的 。 

Elasticsearch Java API 极其 广泛 ， 把 所 有 的 方法 都 一 一 介绍 出 来 并 不 太 现实 ， 因 此 我 们 挑 
选 出 最 常用 也 是 最 重要 的 API 进行 介绍 , 并 通过 数据 集 演示 如 何 使 用 这 些 APT. 掌握 了 基础 之 
后 ， 遇 到 复杂 需求 就 能 够 做 到 举一反三 、 触 类 旁 通 。 
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8.2 Maven 依赖 


Elasticsearch 依赖 的 jar 包 托 管 在 Maven 的 中 央 仓库 ,在 Maven 工程 的 pom.xml 文件 中 添 
加 Elasticsearch 5.4 版 本 的 Maven 坐标 : 


<dependency> 
<groupId>org.elasticsearch.client</groupId> 
<artifactId>transport</artifactId> 
<version>5.4.0</version> 


</dependency> 


下 面 在 Eclipse 中 演示 如 何 创建 Elasticsearch 的 Maven 工程 ， 开 始 前 确保 计算 机 已 经 正确 
安装 Maven。 


€D 在 Eclipse 中 配置 Maven 路 径 。 
如 图 8-1 所 示 , 在 Eclipse 中 依次 选择 Preference 一 Maven 一 Installations，Eclipse 默认 有 一 个 嵌入 


式 的 Maven， 也 可 以 单 击 Add 按钮 添加 本 地 Maven. 


Installations -x 
 vava 
> Java EE Select the instalation used to launch Mavon: 
> Java Persistence Name Details ren 
cao J| EMBEDDED |3.3.9/1.7.0.20160603-1931 
ene WORKEPACE | ® NOT AVAILABLE 3.0.) 

Archetypes 

Discovery 


Errors/Warnings 
Inctallatione 
Java EE Integration 
Lifecycie Mappings 
Templates. 
User Interface. 
User Sattings 
P Myiyn 
> Oomph 
> Plug-in Development 
> Remote Syotome 
> Run/Debug 
P Server 
> Spring 
> Team 
> Torminal 
Validation Note: Embedded runtime is always used for dependency 
> Web resolution 
> Wob Services 
广 XML Restore Defaults Apply 
上 YEdit Preferences 


eno} Cancel ox 


8-1 Eclipse 中 设置 Maven 安装 路 径 


€o 新 建 Maven 工程 。 

如 图 8-2 所 示 , 在 Eclipse 中 依次 选择 File 一 New 一 Other 一 Maven 一 Maven Project, 然后 单 击 Next 
按钮 。 

如 图 8-3 所 示 , 在 新 建 Maven 工程 界面 勾 选 Create a simple project (skip archetype selection) 复 选 
JE, workspace location 是 新 建 的 Maven 项 目的 存储 路 径 ， 可 以 使 用 默认 的 ， 也 可 以 单 击 Browse 按钮 
自 定义 。 然 后 单 击 Next 按钮 进入 下 一 步 。 


出 
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Select a wizard 
Create a Maven Project 


Wizards: 


> Java EE 

> © Java Emitter Templates. 

> JavaScript 

> JAB 

> uPA 

T Maven 
È Check out Maven Projects trom SCM 
Y Maven Module 


> © Plug-in Development 
> © Remote System Explorer 


8-2 在 Eclipse 中 创建 Maven 工程 


如 图 8-4 所 示 ， 这 一 步 是 配置 工程 的 属性 ，Group Id 是 工程 的 包 名 ，Artifact Id 是 工程 的 项 目 名 ， 
版 本 选择 默认 的 ，Packaging 选择 jar 类 型 ， 最 后 单 击 Finish 按钮 。 


Select project name and location 


New Maven project il New Maven project »- 


J Creato a simple project (skip archetype selection) amet 


Group ld; — com.test Y 
了 Use default Workspace location 


Artifact ld: esjmvanpi 


Location: v Browse... 
Version: 0.0.1-SNAPSHOT v4 
Add project(s) to working sot Packaging: jer E 
Working set: Nene: d 
Description: 
» Advanced 
Parent Project 
Group id: ~ 
Artract i 
‘Version: ui Browsa... 
Advanced 
Q ome | vens Cancel <Back Conca Fri 
图 8-3 在 Eclipse 中 创建 Maven 工程 8-4 在 Eclipse 中 创建 Maven 工程 


EIo 在 pom.xml 文 件 中 添加 Elasticsearch 的 外 部 依赖 。 

IRE pom.xml 文件 以 后 Eclipse 会 自动 下 载 jar 包 。 WR Eclipse 没有 自动 下 载 , 可 以 单 击 工 程 名 ， 
然后 右 击 ， 选 择 Run As 一 Maven Install. jar 包 下 载 完 成 以 后 工程 路 径 中 会 多 出 来 一 个 Maven 
Dependencies 路 径 ， 打 开 以 后 可 以 看 到 加 载 的 jar 包 列 表 。 


CET AERE. 
在 pom.xml 中 加 入 Log4j 的 Maven 坐标 : 
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<dependency> 
XgroupId»org.apache.logging.1og4j«/groupId» 
<artifactId>1log4j-api</artifactId> 
<version>2.8.2</version> 

</dependency> 

<dependency> 
<groupId>org.apache. logging. 1log4j</groupId> 
<artifactId>log4j-core</artifactId> 
<version>2.8.2</version> 


</dependency> 
4 src/main/resources 目录 下 新 建 输出 日 志 的 配置 文件 log4j2.properties， 添 加 以 下 内 容 : 


appender.console.type = Console 
appender.console.name = console 
appender.console.layout.type = PatternLayout 
rootLogger.level = info 


rootLogger.appenderRef.console.ref = console 


8.3 ”依赖 冲突 


如 果 在 已 有 的 项 目 中 使 用 Elasticsearch， 有 可 能 会 遇 到 第 三 方 依赖 库 版 本 〈 比 如 Guava, 
Joda) 冲突 的 问题 。 比 如 ， 你 的 应 用 程序 中 使 用 的 Joda 版 本 是 2.1， 但 是 Elasticsearch 使 用 的 
是 Joda 2.8。 解 决 包 冲突 问题 有 以 下 2 个 选择 : 
。 最 简单 的 解决 方案 是 升级 版 本 。 较 新 版 本 的 模块 更 有 可 能 修复 旧版 的 bug。 现 在 使 用 的 版 
本 和 新 版 本 差 得 越 远 ， 以 后 升级 起 来 会 更 麻烦 。 当 然 ， 你 使 用 的 第 三 方 库 依赖 于 一 个 过 时 
版 本 的 包 阻 止 你 升级 也 是 有 可 能 的 。 

e 第 二 个 选择 是 重新 安置 有 冲突 的 jar 包 ，Java 和 Elasticsearch 保留 一 个 。 要 么 屏蔽 Java 应 
用 ， 要 么 屏蔽 Elasticsearch 和 Elasticsearch 客户 端 所 需要 的 任何 插件 。 


8.4 连接 到 集群 


Elasticsearch 的 Java client 对 象 可 以 执行 多 种 操作 : 
e 在 现 有 的 群集 上 执行 标准 的 index. get. delete 和 search 操作 。 
e 在 运行 的 群集 上 执行 管理 任务 。 


获得 一 个 Elasticsearch client 对 象 非常 简单 ， 最 常用 的 方式 是 创建 一 个 可 以 连接 到 
Elasticsearch 集群 的 传输 机 对 象 (TransportClient) 。 
需要 注意 的 是 ，client 对 象 一 定 要 和 集群 中 的 节点 具有 相同 的 版 本 ， 比 如 我 们 使 用 的 


第 8% Elasticsearch Java API 241 


Elasticsearch 的 版 本 是 5.4.0, ASA Java API 也 要 使 用 5.4.0 版 本 。 如 果 客 户 端 和 服务 器 版 本 不 
一 致 ， 就 会 导致 有 些 功能 无 法 使 用 ， 最 理想 的 情况 是 客户 端 和 服务 器 版 本 保持 一 致 。 


8.4.1 传输 机 连接 


使 用 TransportClient 创建 的 client 对 象 可 以 通过 传输 模块 远程 与 Elasticsearch 集群 建立 连 
接 。 这 种 方式 只 会 连接 到 集群 而 不 会 加 入 集群 ，client 对 象 知道 一 个 或 多 个 传输 地 址 ， 通 过 轮 
询 调度 的 方式 和 服务 器 交互 。 

创建 TransportClient 对 象 的 方法 : 


TransportClient client = new PreBuiltTransportClient (Settings.EMPTY) 
.addTransportAddress (new InetSocketTransportAddress (InetAddress 
.getByName ("hostl"),9300)) 

.addTransportAddress (new InetSocketTransportAddress (InetAddress. 
getByName ("host2"), 9300)); 

Settings 对 象 中 可 以 添加 配置 信息 。 如 果 在 配置 文件 中 设置 的 Elasticsearch 集群 名 称 不 是 

默认 的 elasticsearch， 就 需要 在 Settings 对 象 中 指定 集群 名 称 : 

Settings settings = Settings.builder() 

.put("cluster.name", "myClusterName") 
.build(); 
TransportClient client - new PreBuiltTransportClient (settings); 
Transportclient 对 象 自 带 集群 探测 功能 ， 可 以 自动 添加 新 的 主机 、 自 动 移 除 旧 的 主机 。 如 
果 想 要 打开 集群 探测 功能 ， 就 需要 设置 client.transport.sniff 的 属性 为 true: 

Settings settings = Settings.builder() 

.put("client.transport.sniff", true) .build(); 


TransportClient client = new PreBuiltTransportClient (settings) ; 

更 多 TransportClient 的 配置 如 下 。 

e client.transportignore cluster name: 设 为 true 会 忽略 节点 的 集群 名 称 验证 。 

e clienttransport.ping timeout: 设置 ping 命令 的 响应 时 间 ， 默 认 5 秒 。 

€ clienttransport.nodes sampler interval: 设置 检查 节点 可 用 性 的 频率 ， 默 认 值 是 5 秒 。 
842 ”节点 连接 


节点 连接 的 思路 是 把 应 用 程序 作为 Elasticsearch 的 一 个 节点 ， 我 们 的 应 用 程序 作为 
Elasticsearch 集群 的 一 部 分 ， 客 户 端 作为 一 个 新 的 节点 和 集群 中 的 其 他 节点 建立 连接 。 这 样 可 
以 减少 客户 端 和 服务 器 之 间 的 交互 次 数 , 但 是 这 种 方法 并 不 总 是 可 行 ， 比如 集群 不 在 同一 个 局 
域 网 中 。 推 荐 使 用 传输 机 方式 创建 client 对 象 。 


8.4.3 ”代码 实现 


在 工程 的 src/main/java 目录 下 新 建 包 tup.es.client， 在 该 包 下 新 建 类 TestClient.java， 在 该 
类 的 main 方法 中 创建 TransportClient 对 象 并 进行 测试 。 代 码 内 容 如 代码 清单 8-1 所 示 。 
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代码 清单 8-1 


import java.net.InetAddress; 


import java.net.UnknownHostException; 
import org.elasticsearch.action.get.GetResponse; 
import org.elasticsearch.client.transport.TransportClient; 
import org.elasticsearch.common.settings.Settings; 
import org.elasticsearch.common.transport 
. InetSocketTransportAddress; 
import org.elasticsearch.transport.client.PreBuiltTransportClient; 
public class TestClient { 
public static String CLUSTER NAME = "elasticsearch"; // 集群 名 称 
public static String HOST IP = "172.31.44.9"; // 服务 器 IP 
public static int TCP_PORT = 9300;// 端口 
public static void main(String[] args) 
throws UnknownHostException { 
Settings settings = Settings.builder() 
.put("cluster.name", CLUSTER NAME) 
.build(); 
TransportClient client - new PreBuiltTransportClient (settings) 
.addTransportAddress (new InetSocketTransportAddress ( 
InetAddress.getByName (HOST IP), TCP PORT)); 
GetResponse getResponse - client 
.prepareGet ("books", "IT", "1").get(); 
System.out.println(getResponse.getSourceAsString()); 


main 方法 中 一 共有 4 行 代码 ， 第 一 行 创 建 了 一 个 Settings HR, E Settings 对 象 指定 集群 
的 名 称 , 第 二 行 创建 了 一 个 TransportClient 对 象 , 第 三 行 通过 TransportClient 对 象 的 prepareGet 
方法 读 取 Elasticsearch 中 的 一 个 文档 ， 返 回 结果 存储 在 GetResponse 对 象 中 ， 最 后 一 行 打印 了 
文档 内 容 。 运 行 结果 如 图 8-5 所 示 。 

Elasticsearch Java API 的 相关 操作 都 是 通过 TransportClient 对 象 与 Elasticsearch 集群 进行 
交互 的 。 为 了 避免 每 次 请 求 都 创建 一 个 新 的 TransportClient 对 象 , 可 以 封装 一 个 双重 加 锁 单 例 
模式 返回 TransportClient 对 象 的 方法 ， 代 码 如 下 : 


private volatile static TransportClient client; 


E 


public static TransportClient getSingleClient() 
throws UnknownHostException { 
if(client--null) ( 
synchronized(TransportClient.class) { 
client - new PreBuiltTransportClient (settings) 
-addTransportAddress (new InetSocketTransportAddress ( 
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InetAddress.getByName (HOST_IP), TCP_PORT)); 


} 
} 
return client; 
} 
rr " e 
or #028 GE SSF $? 4. vim 9 ROO E 
en 
£s Project Expiorer 34 em Deon t me 
Ed v 1 package tup.es.utils; 2 
v i eelsvonp! 2° import javo.net.InetAddress; Lad 
v jB sro mairljava 3 import java.net .UnknownHostException; @ 
v BB tup.es.umts ! import org.elasticsearch. action.get.GetResponse; 
> JJ TestClent ava 5 import org.elasticsearch. client. transport. TransportClient; 
Y (3 sro/mainíresources © inport org.elasticsearch. common. settings Settings ; 
loo4j2 properties 7 inport org.elasticsearch. common. transport. InetSocketTransportAddress; 
Janan à inport org.elasticsearch. tronsport.client.PreBuiltTransportClient; 
Dormis 9 public class TestClient { 
P BA JRE System Lbrary J25E- 1.5] 10 public static String CLUSTER NAME ~ "elasticsearch";// SEEI 
> 2A Maven Dependencies 11 public static String HOST_IP - "172.31.44.9";// 服务 器 IP 
ipo 12 public static int TCP.PORT = 9380;// DO 
(target n : 
i romam! 148 public static void moin(String[] args) throws UnknownHostException { 
15 Settings settings = Settings.builderO) 
16 .putC"cluster. name", CLUSTER NAME) buildQ; 
a17 TransportClient client - new PreBuiltTronsportClient(settings) 
18 saddTransportAddress(nen InetSocketTronsportAddressC 
19 InetAdóress.getByName(HOST. IP), TCP_PORT)); 
20 
21 GetResponse getResponse = cliert.prepareGet("bocks", "IT", "1").get(); 
22 System. out. printl nCge* Response .getSourceAsString()): 
239. ý 
ER 
E Markers [T Properties J Servers i Data Source Exolorer Ù Snippets E Console 38 S Prooress -n 
WR marem orn 
«terminated» TesiClent [Java Application] /Lbrary.JavaLJavaVirtualMechines/rik1 80,121 jék/Contents/Home/bin/iaya (2017%8 FOR F 
no modules loaded 
loaded plugin [org.elasticsearch. index. reindex. ReindexPlugin] 
loaded plugin [org.elasticsearch.percolator.PercolatorPlugin] 
loaded plugin [org.elasticsearch.scrip: .mustache .Mustache?lugir] 
loaded plugin [org.elosticsearch.transport.Netty3Plugin] 
loaded plugin [org.elasticsearch.transport.Netty4Plugin] 
{"id":"1" "title" "Java?" , "lenguage": " java" ,"cuthor": "Bruce Eckel" "pri ce":70.20, "publ is. 
Cable Smatimet 1:22 


图 8-5 在 Eclipse 中 测试 TransportClient 对 象 


8.5 索引 管理 


这 一 小 节 介绍 如 何 通过 Elasticsearch Java API 进行 索引 的 创建 、 删 除 、 刷 新 、 设 置 别名 、 
设置 mapping 等 索引 管理 操作 。 索 引 管理 是 通过 一 个 IndicesAdminClient 对 象 发 送 各 种 操作 请 
求 ， 获 取 IndicesAdminClient 对 象 的 方式 如 下 : 


IndicesAdminClient indicesAdminClient = client.admin().indices(); 


通过 IndicesAdminClient 对 象 可 以 执行 索引 管理 的 相关 操作 ， 简 介 如 下 。 
e 判断 索引 是 否 存在 


IndicesExistsResponse exResponse = indicesAdminClient 
-prepareExists ("indexName") .get (); 
System.out.println(exResponse.isExists()); 
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o 判断 type 是 否 存 在 


TypesExistsResponse existsResponse=indicesAdminClient 
.prepareTypesExists ("indexName") 
.setTypes ("typel","type2") 
-get(); 
System.out.println(existsResponse.isExists()); 


e 创建 一 个 索引 


CreateIndexResponse cResponse = indicesAdminClient 
.PrepareCreate ("indexName") .get (); 


System.out.print1n(cResponse. isAcknowledged () ); 


注意 ， 索 引 名 必须 小 写 ， 如 果 索 引 名 不 符合 规范 ， 就 会 出 现 InvalidIndexNameException 
异常 。 最 好 在 创建 索引 之 前 通过 String 类 的 toLowerCase() 方 法 进行 小 写 转换 。 


e 创建 索引 并 设置 Settings 


CreateIndexResponse cResponse = indicesAdminClient 

.prepareCreate ("twitter") 

.setSettings (Settings.builder() 
.put("index.number of shards", 3) 
.put("index.number of replicas", 2) 

) 

“get (); 


e 更 新 副本 


UpdateSettingsResponse upResponse = indicesAdminClient 


.PrepareUpdateSettings ("twitter") 
.SetSettings (Settings.builder () 
.put("index.number of replicas", 0)) 
-get(); 


© 获取 Settings 


GetSettingsResponse response = indicesAdminClient 
-prepareGetSettings ("twitter ", " tweet ").get(); 
for (ObjectObjectCursor<String, Settings> cursor : 
response.getIndexToSettings()) { 
String index = cursor.key; 
Settings settings = cursor.value; 
Integer shards = settings.getAsInt("index.number of shards", 
null); 
Integer replicas = settings.getAsInt ("index.number_of replicas", 
null); 
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e 设置 mapping 
假设 索引 twitter/tweet 的 mapping 如 下 : 
{ 


"properties": { 
"name": { "type": "keyword" } 


} 
使 用 Java API 设置 mapping 的 核心 代码 如 下 : 


client.admin().indices().preparePutMapping ("twitter") 
.setType ("tweet" 
.setSource("(Mn" + 
"  \"properties\": {\n" + 
» \"name\": {\n" + 
á \"type\": \" keyword \"\n" + 
x }\n" + 
"opa" + 
vn) 
+ get(); 
也 可 以 使 用 XContentFactory 构造 ， 代 码 如 下 : 


CreateIndexResponse cResponse = indicesAdminClient 
.prepareCreate ("twitter ") 
.addMapping ("tweet ",XContentFactory.jsonBuilder () 
«StartObject () 
.StartObject ("properties") 
.StartObject ("name") 
.field("type", " keyword ") 
.endObject () .endObject () 
.endObject () ) 
.get (); 
e 获取 mapping 
GetMappingsResponse mResponse = indicesAdminClient 
. prepareGetMappings ("indexname") .get (); 
ImmutableOpenMap<String, MappingMetaData> mapings = mResponse 
-getMappings () 
.get ("indexname") ; 
MappingMetaData metatda = mapings.get ("typename") ; 
System. out.println (metatda.getSourceAsMap () ); 


e 删除 索引 


DeleteIndexResponse dResponse = indicesAdminClient 
.PrepareDelete ("indexname") .get (); 
System.out.println (dResponse.isAcknowledged()); 
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e 刷新 

indicesAdminClient.prepareRefresh().get(); 

indicesAdminClient .prepareRefresh ("indexname").get(); 

indicesAdminClient.prepareRefresh("indexname", "typename") .get (); 

e 关闭 索引 

CloseIndexResponse clResponse = indicesAdminClient 
.PrepareClose ("indexname").get(); 

e 打开 索引 

OpenIndexResponse opResponse = indicesAdminClient 
.PrepareOpen ("indexname") .get (); 

e 设置 别名 


IndicesAliasesResponse aResponse = indicesAdminClient 


.PrepareAliases() .addAlias ("indexName", "aliasesName") .get(); 
e 获取 别名 


GetAliasesResponse gResponse = indicesAdminClient 


.PrepareGetAliases ("aliasesname").get(); 


8.6 文档 管理 


这 一 节 介绍 文档 管理 的 Java API， 主 要 包括 单 文档 操作 API 和 多 文档 操作 API 两 部 分 。 
单 文档 操作 API 主要 包括 索引 文档 、 查 询 文 档 、 删 除 文档 、 更 新 文档 ， 多 文档 操作 API 主要 
包括 批量 获取 操作 和 BULK 操作 。 


8.6.1 新 建文 档 


索引 文档 API 可 以 把 一 个 JSON 格式 的 文档 索引 到 特定 的 索引 中 ， 并 使 该 文档 是 可 搜索 
的 。 生 成 JSON 格式 文档 的 方法 有 以 下 几 种 : 

e 把 JSON 格式 的 文档 手工 转换 为 字 节 数组 byte[] 或 String。 

e 使 用 Map，Map 是 一 个 key/value 键 值 对 集合 ， 代 表 一 个 ISON 结构 。 

e 

e 


使 用 内 置 帮助 类 XContentFactory 的 jsonBuilder() 方 法 。 
使 用 Jackson 等 第 三 方 库 把 Java Bean 转化 为 JSON 序列 。 


事实 上 在 内 部 不 论 哪 种 类 型 最 后 都 会 被 转换 成 字 节 数组 (String 字符 串 也 会 被 转化 成 字 节 
数组 ) ， 因 此 如 果 文 档 已 经 是 字 节 数组 格式 ， 直 接 使 用 即 可 ，jsonbuilder 是 高 度 优化 的 JSON 
生成 器 。 

下 面 通过 实例 介绍 以 上 4 种 索引 文档 的 方法 ， 准 备 一 个 JSON 格式 的 文档 ， 内 容 如 下 : 
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"user": "kimchy", 
"postDate":"2013-01-30", 


"message":"trying out Elasticsearch" 


H 
方法 一 : 把 JSON 4H String. 
String docl = "{" + 


"\"user\":\"kimchy\"," + 


Be ur 
IndexResponse response = client 
.prepareIndex("twitter", "tweet","1") 
.SetSource (doc1) 
-get(); 
System.out.println(response.status()); 


方法 二 : 使 用 Map。 


Map<String, Object> doc2 = new HashMap<String, Object>(); 
doc2.put ("user", "kimchy") 7 
doc2.put ("postDate", "2013-01-30") ; 
doc2.put ("message", "trying out Elasticsearch") ; 
IndexResponse response = client 

.prepareIndex("twitter", "tweet","2") 

-SetSource (doc2) 

-get(); 
System.out.println(response.status()); 


方法 三 : 使 用 Elasticsearch 帮助 类 。 


使 用 内 置 帮 助 类 XContentFactory 的 jsonBuilder() 方 法 可 以 构造 XContentBuilder 对 象 ， 
XContentBuilder 对 象 可 以 直接 写 入 Elasticsearch 中 。 如 果 需 要 查看 生成 的 ISON 内 容 ， 可 以 调 
用 string() 方 法 。 


XContentBuilder doc3 = jsonBuilder().startObject() 
.field("user", "kimchy" 
-field("postDate", "2013-01-30") 
-field("message", "trying out Elasticsearch") 
.endObject () ; 

System.out.println (doc3.string()); 


IndexResponse response - client 
.prepareIndex("twitter", "tweet", "3") 
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.SetSource (doc3) 
-get(); 


System.out.println(response.status()); 


jsonBuilder() 方 法 也 可 以 使 用 startArray() 方 法 添加 数组 , field0 方 法 可 以 接收 多 种 类 型 的 参 
数 ， 可 以 直接 传 入 数字 、 日 期 其 至 是 其 他 类 型 的 XContentBuilder 对 象 。 下 面 我 们 再 给 出 一 个 
例子 ， 一 个 含有 数组 和 嵌 套 对 象 的 JSON 文档， 内 容 如 下 : 


{ 
"name":"Tom", 
dd 5 
"scores": [{"Math":"80"},"English":"85"], 
"address": { 
"country":"China", 


"city": "Beijing" 


} 
使 用 jsonBuilder() 方 法 构造 结果 : 


builder-jsonBuilder().startObject().field("name","Tom") 

.field("age","12") 
-StartArray ("scores") 
.StartObject().field("Math","80").endObject () 
.StartObject().field("English","85") 
.endObject () . endArray () 
.field("address") 
.StartObject ().field("country","China") 
.field("city","Beijing") 
.endObject () 
.endObject(); 

System.out.println (builder.string()); 


方法 四 : 使 用 Jackson 序列 化 Java Bean. 
E 使 


d 


H 


Jackson 首先 要 加 入 相关 依赖 ， 把 下 面 的 配置 加 入 pom.xml P: 


<dependency> 
XgroupId»com.fasterxml.jackson.core«/groupId» 
<artifactId>jackson-databind</artifactId> 
<version>2.6.6</version> 

</dependency> 


E 创建 User HR, 代码 如 下 ， 这 里 不 再 贴 出 无 参 构造 方法 、 有 参 构造 方法 、setter 和 getter 
以 及 toString 方法 的 代码 : 
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import java.util.Date; 
public class User { 
private String user; 
private Date postDate; 
private String message; 
// 无 参 构造 方法 
// 有 参 构造 方法 
// setter 和 getter 
// toString () 
} 


2003 通过 ObjectMapper 序列 化 Java Bean， 代 码 如 下 : 


User user = new User("Zhang San", new Date(2013 - 1900, 1 - 1, 30), 
"trying out Elasticsearch"); 

ObjectMapper mapper = new ObjectMapper(); 

SimpleDateFormat format = new SimpleDateFormat ("yyyy-MM-dd") ; 
mapper.setDateFormat (format) ; 

byte[] doc4 = mapper.writeValueAsBytes (user) ; 

IndexResponse response = client 
.prepareIndex("twitter", "tweet", "5") 
-SetSource (doc4) .execute() .actionGet(); 


System.out.println(response.status()); 


最 后 ， 可 以 通过 IndexResponse 对 象 获取 反馈 信息 ， 常 用 方法 简介 如 下 。 


获取 请 求 的 索引 名 称 : String. index = response.getIndex()。 

获取 请 求 的 文档 类 型 : String _type = response.getType()。 

获取 请 求 的 文档 ID: String. id = response.getId()。 

获取 文档 版 本 : long version = response.getVersion(). 

返回 文档 是 否 创建 成 功 : boolean created = response.status()， 如 果 文档 是 新 创建 的 ， 就 返 
CREATED; 如 果 文 档 不 是 首次 创建 而 是 被 更 新 过 的 就 返回 OK。 


8.6.2 ”获取 文档 


Get API 可 以 实现 通过 文档 id 读 取 一 个 JSON 格式 的 文档 。 下 面 的 例子 是 读 取 索 引 名 为 
twitter, 270 4473 tweet, id 为 1 的 文档 : 


GetResponse response -client.prepareGet ("twitter", "tweet","1") 


e © o o o 


E 


El 


get; 
String content- response.getSourceAsString(); 


GetResponse 对 象 提 供 的 常用 方法 如 下 。 


e isExists(): 如 果 要 读 取 的 文档 存在 ， 就 返 
e getlndex(): 返回 请 求 文档 的 索引 名 。 


I 


true, AWE false. 
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getType(): 返回 请 求 文档 的 类 型 名 。 

getld(): 返回 请 求 文档 的 ID. 

getVersion(): 返回 文档 版 本 信息 。 

getSourceAsBytes(): 以 二 进 制 数 组 方式 读 取 文档 内 容 。 
getSourceAsMap(): 以 map 形式 读 取 文 档 内 容 。 
getSourceAsString(): 以 文本 方式 读 取 文档 内 容 。 
isSourceEmpty(): 判断 文档 内 容 是 否 为 空 。 


8.6.3 ”删除 文档 


和 读 取 文 档 的 API 类 似 ，Delete API 可 以 实现 通过 文档 id 删除 Elasticsearch 中 的 文档 ， 以 
删除 索引 名 为 twitter、 类 型 名 为 tweet、id 为 1 的 文档 为 例 ， 代 码 如 下 : 


DeleteResponse response = client.prepareDelete("twitter", "tweet", "1") 


.get (); 
DeleteResponse 对 象 提供 的 常用 方法 如 下 。 
status(): 删除 成 功 ， 返 回 OK; 删除 失败 ， 返 回 NOT_FOUND. 
getType(): 返回 删除 请 求 文档 的 类 型 。 
getld(): 返回 删除 请 求 文档 的 ID。 
getVersion(): 返回 删除 请 求 文档 的 版 本 信息 。 


8.6.4 更 新 文档 


Elasticsearch 提供 了 多 种 更 新 文档 的 API， 主 要 有 使 用 UpdateRequest Xt, (EH y HRI 
本 、 使 用 prepareUpdate() 方 法 这 3 种 。 

给 索引 名 为 twitter、 类 型 名 为 tweet、id 为 1 的 文档 新 增 一 个 gender 字段 ， 首 先 创建 一 个 
UpdateRequest 对 象 ， 之 后 通过 TransportClient 对 象 的 Update() 方 法 执行 更 新 。 核 心 代码 如 下 : 


UpdateRequest updateRequest = new UpdateRequest (); 


e. © èo o 


updateRequest . index ("twitter"); 
updateRequest.type ("tweet"); 
updateRequest.id("1"); 
updateRequest .doc(jsonBuilder () 
.StartObject () 
-field("gender", "male") 
.endObject()); 
client.update (updateRequest) .get () ; 


Elasticsearch 也 支持 脚本 操作 ， 使 用 脚本 给 文档 新 增 一 个 gender 字段 ， 核 心 代码 如 下 : 


UpdateRequest updateRequest = new UpdateRequest("twitter", "tweet", 
"1").script (new Script ("ctx._source.gender = \"male\"")); 
client.update (updateRequest) .get () ; 


使 用 prepareUpdate() 方 法 同样 可 以 实现 更 新 操作 , 既 可 以 通过 设置 文档 的 方式 (doc 模式 ) 
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更 新 文档 ， 又 可 以 通过 执行 脚本 的 方式 (script 模式 ) 更 新 文档 ， 但 是 这 两 种 方式 不 要 混用 。 
代码 示例 如 下 : 


client.prepareUpdate("ttl", "doc", "1") 
.setScript(new Script("ctx. source.gender = \"male\"" , 
ScriptService.ScriptType.INLINE, null, null) 
“get (); 
client.prepareUpdate("ttl", "doc", "1") 
.SetDoc (jsonBuilder () 
.StartObject() 
.field("gender", "male") 
.endObject () ) 
eget (); 


Elasticsearch 还 支持 upsert 操作 ， 如 果 文档 存在 ， 就 执行 修改 操作 ; 如果 文 档 不 存在 ， 就 
再 创建 一 个 新 的 文档 。 下 面 来 看 如 何 实现 upsert 操作 : 


IndexRequest indexRequest = new 


IndexRequest ("twitter", "tweet", "1") 
.source(jsonBuilder() .startObject() 
.field("name", "Joe Smith") 
.field("gender", "male") 

.endObject ()); 

UpdateRequest updateRequest = new 
UpdateRequest ("twitter", "tweet", "1") 
.doc (jsonBuilder().startObject () 
.field("gender", "male") 

.endObject () ) . upsert (indexRequest) ; 
client.update (updateRequest) .actionGet(); 


如 果 文 档 twitter/tweet/1 存在 ， 就 执行 updateRequest 操作 ， 把 gender 修改 为 male; 如 果 
文档 twitter/tweet/1 不 存在 ， 就 执行 indexRequest 操作 ， 新 建 一 个 文档 。 假 设 Elasticsearch f£ 
在 一 个 文档 twitter/tweet/1 : 


{ 
"name" : " Joe Dalton", 
"gender": "female" 

) 


执行 上 述 操 作 以 后 ，twitter/tweet/1 中 的 内 容 更 新 为 : 


{ 
"name" : " Joe Dalton", 


"gender": "male" 
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如 果 twitter/tweet/1 不 存在 ， 执 行 上 述 操作 以 后 ， 我 们 会 得 到 一 个 新 的 文档 : 
{ 


"name" : "Joe Smith", 
"gender": "male" 
} 


8.6.5 查询 删除 


Delete By Query API 可 以 实现 根据 查询 条 件 删除 文档 , 删除 books 索引 中 title 字段 包含 关 
键 词 java 的 文档 ， 代 码 如 下 : 


BulkByScrollResponse response =DeleteByQueryAction. INSTANCE 


.newRequestBuilder (client) / (TER 1 
.filter(QueryBuilders.matchQuery("title", "java")) // 注 释 2 
.Source ("books") // 注 释 3 
.get (); 

long deleted = response.getDeleted(); // 注 释 4 


注释 1: 传 入 TransportClient 对 象 。 
注释 2: 传 入 删除 的 Query. 
注释 3: 设置 索引 名 称 。 

注释 4: 被 删除 文档 的 数目 。 
8.6.6 批量 获取 


使 用 multiGet API 可 以 通过 索引 名 、 类 型 名 、 文 档 id 一 次 获取 一 个 文档 集合 ， 文 档 可 以 
来 自 同 一 个 索引 库 ， 也 可 以 来 自 不 同 索引 库 。 核 心 代码 如 下 : 


MultiGetResponse multiGetItemResponses = client.prepareMultiGet () 


e © o o 


.add("twitter", "tweet", "1") // 注 释 1 
.add("twitter", "tweet", "2", "3", "4") // 注 释 2 
.add("another", "type", "foo") // 注 释 3 
-get(); 


for (MultiGetItemResponse itemResponse : multiGetItemResponses){ //YEFE 4 
GetResponse response = itemResponse.getResponse(); 
if (response !-null&&response.isExists()) { / HERES 
String json - response.getSourceAsString(); / HERE 6 
System.out.println(json); 


注释 1: 通过 单一 的 id 获取 一 个 文档 。 
注释 2: 传 入 多 个 id， 从 相同 的 索引 名 /类 型 名 中 获取 多 个 文档 。 
注释 3: 可 以 同时 获取 不 同 索 引 中 的 文档 。 
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注释 4: 遍历 结果 集 。 
注释 5: 检验 文档 是 否 存在 。 
注释 6: 获取 源 文档 。 


8.6.7 ”批量 操作 


使 用 multiGet API 可 以 进行 批量 读 取 操 作 ， 同 样 ， 使 用 Bulk API 可 以 通过 一 次 请 求 完成 批 
量 索引 文档 、 批 量 删除 文档 和 批量 更 新 文档 。 下 面 的 代码 先 创建 了 一 个 BulkRequestBuilder 对 象 
用 于 执行 批量 操作 ， 使 用 IndexRequestBuilder 创建 了 一 个 索引 文档 请 求 对 象 ， 使 用 
DeleteRequestBuilder 创建 了 一 个 删除 文档 请 求 对 象 , 使 用 UpdateRequestBuilder 创建 了 一 个 索引 
文档 请 求 对象 , 最 后 通过 调用 add() 方 法 把 3 个 请 求 加 到 BulkRequestBuilder 对 象 中 并 批量 执行 。 


BulkRequestBuilder bulkRequest = client.prepareBulk(); 


IndexRequestBuilder indexRequest = client 
.PrepareIndex ("twitter", "tweet", "5") 
.setSource(jsonBuilder().startObject().field("user", "kimchy") 
.field("postDate", new Date()) 

.field("message", "another post") .endObject()); 

DeleteRequestBuilder deleteRequest = client 
.prepareDelete("twitter","tweet", "2"); 

UpdateRequestBuilder updateRequest-client 
.prepareUpdate("twitter", "tweet", "5") 
.setDoc(jsonBuilder().startObject() 

.field("message", "update request") 
.endObject()); 

bulkRequest.add (indexRequest) .add (deleteRequest) . add (updateRequest) 

.execute().actionGet(); 


Elasticsearch 的 Bulk Processor API 可 以 在 批量 操作 完成 之 前 和 之 后 进行 相应 的 操作 , 示例 
代码 与 注释 如 下 : 


Listener listener = new BulkProcessor.Listener() { 
GOverride 
public void beforeBulk(long arg0, BulkRequest argl) 
{ / ERE 1 
} 
GOverride 
public void afterBulk(long arg0, BulkRequest argl, 
Throwable arg2) ( // 注 释 2 
H 
GOverride 
public void afterBulk(long arg0, BulkRequest argl, 
BulkResponse arg2) / [AE 3 
{ 
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BulkProcessor bulkProcessor = BulkProcessor 


e o o où où o o 


.builder (client, listener)  .setBulkActions (10000) / (TERE 4 
.setBulkSize (new ByteSizeValue(20,ByteSizeUnit .MB) ) // 注 释 5 
.SetFlushInterval (TimeValue.timeValueSeconds (5) ) // 注 释 6 
.setConcurrentRequests (5) // 注 释 7 
.SetBackoffPolicy (BackoffPolicy.exponentialBackoff (TimeValue 

.timeValueMillis(100), 3)).build(); INER 8 


注释 1: beforeBulk0) 会 在 批量 提交 之 前 执行 ， 通 过 BulkRequest 对 象 的 requests() 方 法 获取 
请 求 信息 ，BulkRequest 对 象 的 numberOfActions() 方 法 获取 请 求 数量 。 

注释 2: 设置 bulk 批 处 理 请 求 出 现 异常 需要 执行 哪些 操作 。 

注释 3: 设置 bulk 批 处 理 请 求 执行 成 功 之 后 需要 执行 哪些 操作 。 

注释 4: 设置 请 求 操作 的 数量 超过 1 万 次 触发 批量 提交 动作 。 

注释 5: 设置 批 处 理 请 求 达到 20M 触发 批量 提交 动作 。 

注释 6: 设置 刷新 索引 时 间 间 隔 。 

注释 7: 设置 并 发 处 理 线程 个 数 。 

注释 8: 设置 回 滚 策略 ， 等 待 时 间 为 100ms，retry 次 数 为 3 次 。 


8.7 搜索 详解 


和 REST 接口 的 查询 DSL 一 样 ，Elasticsearch 也 提供 了 Java 接口 的 查询 DSL。 构 造 查询 
对 象 的 工厂 类 是 QueryBuilders, 只 要 查询 语句 准备 好 了 就 可 以 使 用 搜索 相关 的 API。 这 一 节 我 
们 首先 会 给 出 一 个 match 查询 的 例子 , 通过 这 个 例子 介绍 创建 查询 语句 、 获 取 搜 索 结 果 以 及 实 
现 搜索 高 亮 。 举 一 反 三 ， 后 面 我 们 只 给 出 构造 其 他 查询 的 方法 ， 把 例子 中 的 match 查询 替换 掉 
就 可 以 实现 多 种 类 型 的 搜索 。 基 本 查询 和 聚合 分 析 我 们 使 用 第 6 章 中 的 books 索引 作为 测试 数 
据 集 ， 父 子 文档 搜索 我 们 使 用 第 6 章 中 的 company 索引 作为 测试 数据 集 。 

首先 构造 一 个 match 查询 的 对 象 : 


QueryBuilder matchQuery = QueryBuilders.matchQuery ("title", 

"Java 编程 ") .operator(Operator.AND); 
第 一 个 参数 是 查询 的 字段 ， 第 二 个 参数 是 要 查询 的 关键 字 ，Operator.AND 表示 使 用 AND 
的 方式 连接 被 解析 后 的 词 项 。 完 整 的 代码 如 代码 清单 8-2 所 示 。 


代码 清单 8-2 


public class EsMatchQueryTest { 


public static void main(String[] args) 


throws UnknownHostException { 
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QueryBuilder matchQuery = QueryBuilders 
.matchQuery ("title", "python") 


-operator (Operator.AND) ; // 注 释 1 
HighlightBuilder highlighter = new HighlightBuilder() // 注 释 2 
“field("title") // 注 释 3 

.PreTags ("<span style=\"color:red\">") // 注 释 4 


-postTags ("</span>") ; 


SearchResponse response = EsUtils.getSingleTransportClient () 


-prepareSearch ("books") // 注 释 5 
.SetQuery (matchQuery) // 注 释 6 
.highlighter (highlighter) // 注 释 7 
.setSize(100) // 注 释 8 
.get () 7 
SearchHits hits = response.getHits(); // 注 释 9 
System.out .println(" 共 搜索 到 :" + hits.getTotalHits() + "条 数据 ") 
for (SearchHit hit : hits) { // 注 释 10 


System.out.println("Soucrce:" +hit.getSourceAsString()); // 注 释 11 
System.out.println("Soucrce As Map:"+ hit.getSource()); // 注 释 12 


System.out.println("Index:" + hit.getIndex()); / NER 13 
System.out.println("Type:" + hit.getType()); / [AERE 14 
System.out.println("ID:" * hit.getId()); / NER 15 


System.out.println("Price:" + hit.getSource() 
.get("price")); // 注 释 16 
System.out.println("Score:" + hit.getScore()); // 注 释 17 
Text[] text = hit.getHighlightFields().get("title") 
.getFragments () ;// 注 释 18 
if (text != null) { 
for (Text str : text) { 
System.out.println(str.string()); 


上 面 的 代码 中 先 创 建 了 一 个 TransportClient 对 象 用 于 和 Elasticsearch 服务 器 交互 ， 之 后 调 
matchQuery() 方 法 创建 一 个 QueryBuilder 对 象 ， 然 后 通过 client 对 象 进行 查询 ， 查 询 结果 通 
过 SearchResponse 对 象 的 getHits() 方 法 获取 ， 最 后 遍历 查询 结果 集 输 出 文档 内 容 ， 注 释 如 下 。 


e 注释 1: 构造 一 个 matchQuery，matchQuery 接收 2 个 参数 ， 第 一 个 参数 是 要 搜索 的 字段 ， 
第 二 参数 用 于 查询 字符 串 。Operator.AND 参数 用 于 指定 查询 语句 被 解析 后 采用 AND 的 方 
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注释 2: 构造 一 个 HighlightBuilder 对 象 。 
注释 3: 设置 要 高 亮 的 字段 。 


注释 4: 自 定 义 高 亮 标签 。 
注释 5: 通过 TransportClient 对 象 调 用 prepareSearch 方法 , 方法 的 参数 是 要 检索 的 索引 名 。 


如 果 要 搜索 多 个 索引 ， 就 可 以 用 逗号 隔 开 ， 例 如 搜索 books! 和 books2 这 两 个 索引 ， 可 以 
写成 client.prepareSearch("books1","books2")。 如 果 不 指定 索引 名 ， 就 会 搜索 集群 中 的 所 有 


索引 。 搜 索 结果 存在 于 SearchResponse 对 象 中 。 

注释 6: 设置 查询 方法 ， 参 数 为 上 面 构造 的 matchQuery. 
注释 7: 传 入 HighlightBuilder 对 象 。 

注释 8: 设置 一 次 查询 返回 文档 的 数量 。 

注释 9: 通过 SearchResponse 对 象 的 getHits() 方 法 返 
注释 10: 遍历 SearchHits 数组 。 

注释 11: getSourceAsString() 方 法 会 返回 String 类 型 的 文档 内 容 。 

注释 12: getSource() 方 法 会 返回 Map 格式 的 文档 内 容 。 

注释 13: getIndex() 方 法 返回 文档 所 在 的 索引 。 

注释 14: getType() 方 法 返回 文档 所 在 的 类 型 。 

注释 15: getId() 方 法 会 返回 文档 的 ID。 

注释 16: getSource() 方 法 返回 的 是 一 个 Map， 通 过 get() 方 法 获取 字段 的 value。 
注释 17: getScore() 方 法 会 返回 文档 的 评分 。 

注释 18: getHighlightFields0 会 返回 文档 中 所 有 高 亮 字 段 的 高 亮 


d 
3 
ES 
» 
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容 ， 再 通过 get() 方 法 获 


取 某 一 个 字段 的 高 亮片 段 ， 最 后 调用 getFragments() 方 法 ， 返 回 结果 存在 于 Text 类 型 的 数 


组 中 ， 遍 历数 组 获取 高 亮 内 容 。 
图 8-6 是 运行 之 后 在 控制 台中 的 打印 结果 。 


[t Wars 口 Propertes ii Severs MY Data Source Explow È Snppe's C Conscie 2t siy Progress Je JUnit -e 
x % be we t o r 

terminated» EaMatshQuery Test [Java Application] /Ubrary/Java/JavaVirtuaiMachines/dk1 8.0_121 jdh/Contents/Home/bin/java 20179 49071 FF 11:08:74) 

no modules loaded 

Loaded plugin [org.eLasticsearch.index. reindex. ReindexPLucin] 

loaded plugin [org.clasticscarch.percolator.PercolatorPlugin] 

loaded plugin [erg.elasticsearch.script.mustoche.MustachePlugin] 


looded plugin [org.elasticsearch.transport.Netty3Plugin] 

loaded plugin [org.elasticsearch.transort.Netty4Plugin] 

共 搜 索 到 :2 条 数据 

Soucrce: (* id": "4", "title": "Python ERI" ," Language" : " python" , "author": "Helant", "price":54.50, "publish time 


Soucrce As Map:{authorsHelant, price-54.5, publish time-2614-03-01, description-&AufPythonA[]8, RAER, 
Index:books 


Py’ 
Soucrce: ("id": "3", "title": "Pythonsit#", "Language" ;" python" , “author”: "KAR", "price" :81,40, "publish. time" 
Soucrce As Map:[author-XKEUB, price-81.4, publish time-2016-05-01, description-SXsPPpython, Jéft rh f£ Sr 
Index:books 
Type:IT 
10:3 
Price:81.4 
Score:@.6099695 
</span>Python</em> 科 学 计算 


8-6 match query 查询 结果 
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8.7.1 全 文 查询 
使 用 Elasticsearch Java API 构造 各 种 全 文 级 别 查询 的 例子 如 下 。 
e Match All Query 
QueryBuilder matchAllQuery = QueryBuilders.matchAllQuery (); 
e match phrase query 


QueryBuilder matchPhraseQuery-QueryBuilders 


.matchPhraseQuery ("foo", "hello world"); 


e match phrase prefix query 


QueryBuilder matchPhrasePrefixQuery-QueryBuilders 


.matchPhrasePrefixQuery ("foo", "hello w"); 


e multi match query 


QueryBuilder multiMatchQuery - QueryBuilders 


.multiMatchQuery("kimchy ", "user", "message" ); 


* common terms query 

QueryBuilder commonTermsQuery - QueryBuilders 
-commonTermsQuery ("name", "kimchy"); 

* query string query 

QueryBuilder queryStringQuery - QueryBuilders 
-queryStringQuery("*kimchy -elasticsearch"); 

e simple query string 


QueryBuilder qb - QueryBuilders 
.simpleQueryStringQuery("*kimchy -elasticsearch"); 


87.2 词 项 查询 
使 用 Elasticsearch Java API 构造 各 种 词 项 级 别 查询 的 例子 如 下 。 


® term query 


QueryBuilder termQuery-QueryBuilders.termQuery ("title","java"); 


@ terms query 

QueryBuilder termsQuery-QueryBuilders 
.termsQuery ("title","java","python"); 

e range query 


QueryBuilder rangeQuery-QueryBuilders.rangeQuery ("price") 
-from(50) 
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.to(70) 
-includeLower (true) 


-includeUpper (false); 
€ exists query 
QueryBuilder existsQuery - QueryBuilders.existsQuery ("language"); 
€ prefix query 


QueryBuilder prefixQuery-QueryBuilders 


.prefixQuery ("description","win"); 


e wildcard query 


QueryBuilder wildcardQuery = QueryBuilders 
.wildcardQuery ("author", "#K#2") ; 


@ regexp query 
QueryBuilder regexpQuery = QueryBuilders.regexpQuery("author", "Br.*"); 


e fuzzy query 


QueryBuilder fuzzyQuery - QueryBuilders 


.fuzzyQuery ("title","javascritp"); 
@ type query 
QueryBuilder typeQuery = QueryBuilders.typeQuery ("IT"); 
e ids query 
QueryBuilder idsQuery = QueryBuilders.idsQuery().ids("3", "5"); 


873 ”复合 查询 
使 用 Elasticsearch Java API 构造 各 种 复合 查询 的 例子 如 下 。 


* constant score query 


QueryBuilder constantScoreQuery -QueryBuilders.constantScoreQuery( 
QueryBuilders.termQuery ("title","java") 
) .boost (2.0£); 


e dis max query 


QueryBuilder disMaxQuery =QueryBuilders.disMaxQuery () 
.add (QueryBuilders.termQuery("title", "java")) 
.add (QueryBuilders.termQuery("title", "python") ) 
-boost (1.2f) 
-tieBreaker (0.7f); 
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e bool query 


使 用 bool 查询 查找 title 字段 中 包含 关键 词 java， 并 且 价 格 不 高 于 70，description 字段 可 
以 包含 也 可 以 不 包含 虚拟 机 的 书籍 ， 构 造 boolQuery 的 代码 如 下 : 


QueryBuilder matchQueryl = QueryBuilders 


.matchQuery("title", "Java"); 
QueryBuilder matchQuery2 = QueryBuilders 

-matchQuery("description", "HEd#L") ; 
QueryBuilder rangeQuery= QueryBuilders.rangeQuery ("price") .gte(70); 
QueryBuilder boolQuery = QueryBuilders.boolQuery () 

.must (matchQuery1) 

. should (matchQuery2) 


.mustNot (rangeQuery) ; 


e indices query 
使 用 indices 查询 查找 索引 books 和 books2 中 title 字段 包含 关键 词 javascript、 其 他 索引 的 
message 字段 包含 关键 词 Elasticsearch 的 文档 ， 构 造 ndicesQuery 的 代码 如 下 : 


QueryBuilder matchQuery=QueryBuilders 

.matchQuery ("title", "javascript"); 
QueryBuilder noMatchQuery=QueryBuilders 

.matchQuery ("message", "Elasticsearch"); 
QueryBuilder indicesQuery=QueryBuilders 

.indicesQuery (matchQuery, "books","books2") 

.noMatchQuery (noMatchQuery) ; 


e function score query 


import static org.elasticsearch.index.query.functionscore 
-ScoreFunctionBuilders.*; 
FilterFunctionBuilder[] functions - ( 
new FunctionScoreQueryBuilder.FilterFunctionBuilder( 
matchQuery("name", "kimchy"), 
randomFunction ("ABCDEF")), 
new FunctionScoreQueryBuilder.FilterFunctionBuilder( 
exponentialDecayFunction("age", OL, 1L) 
MF 
QueryBuilder qb = QueryBuilders.functionScoreQuery (functions); 


e boosting query 


使 用 boosting 查询 查找 title 字段 包含 关键 词 python 的 书籍 , 并 对 出 版 日 期 在 2015 年 之 前 
的 结果 降低 评分 ， 构 造 boostingQuery 的 代码 如 下 : 


QueryBuilder matchQuery=QueryBuilders.matchQuery("title", "python"); 
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QueryBuilder rangeQuery=QueryBuilders.rangeQuery ("publish time") 
.lte("2015-01-01"); 


QueryBuilder boostingQuery = QueryBuilders.boostingQuery (matchQuery, 


rangeQuery) .negativeBoost (0.2f); 


874 RES 


® nested query 


QueryBuilder qb - nestedQuery( 


"objl", 
boolQuery( 


) 


.must (matchQuery("objl.name", "blue")) 


.must (rangeQuery ("objl.count").gt(5)), 


ScoreMode. 
) 


e hasChildQuery 4%: 


Avg 


索 含 有 1980 年 以 后 出 生 的 员工 所 在 的 分 支 机 构 


QueryBuilder rangeQuery = QueryBuilders.rangeQuery ("dob") 
.gte ("1980-01-01"); 
QueryBuilder hasChildQuery = QueryBuilders.hasChildQuery ("employee", 


rangeQuery) ; 


e hasChildQuery 4%; 


索 最 少 含有 2 个 employee 的 机 构 


QueryBuilder matchAllQuery = QueryBuilders.matchAllQuery(); 


QueryBuilder hasChildQuery = QueryBuilders 


-hasChildQuery ("employee", matchAllQuery) .minChildren (2); 


e  hasParentQuery 搜索 哪些 employee 工作 在 UK 


QueryBuilder matchQuery2 = QueryBuilders 


.matchQuery("country", "UK"); 


QueryBuilder hasParentQuery = QueryBuilders 


-hasParentQuery ("branch",matchQuery2) ; 


87.5 WESH 


Java API 中 执行 地 理 


坐标 如 下 : 


<dependency> 


位 置 查询 , 需要 spatial4j 和 jts 库 的 支持 , 在 工程 中 添加 它们 的 maven 


XgroupId»org.locationtech.spatial4j«/groupId» 
<artifactId>spatial4j</artifactId> 


<version>0.6</version> 


</dependency> 


<dependency> 
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<groupId>com.vividsolutions</groupId> 
<artifactId>jts</artifactId> 
<version>1.13</version> 
<exclusions> 
<exclusion> 
XgroupId»xerces«/groupId» 
<artifactId>xercesImpl</artifactId> 
</exclusion> 
</exclusions> 
</dependency> 
@ geo shape query 
Coordinate topLeft = new Coordinate (106.23248, 38.48644); 
Coordinate bottomRight = new Coordinate (115.85794, 28.68202); 
QueryBuilder geoShapeQuery = null; 
geoShapeQuery = QueryBuilders.geoShapeQuery ( 
"location", ShapeBuilders.newEnvelope (topLeft, bottomRight) ) 
. relation (ShapeRelation.WITHIN) ; 


e geo bounding box query 

QueryBuilder geoBoundingBoxQuery-QueryBuilders 
-geoBoundingBoxQuery ("location") 
-SetCorners(38.4864400000, 106.2324800000, 
28.6820200000, 115.8579400000) ; 


* geo distance query 
QueryBuilder geoDistanceQuery -QueryBuilders 
-geoDistanceQuery ("location") 


-point(39.0851000000,117.1993700000) 
-distance(200, DistanceUnit.KILOMETERS); 


* geo polygon query 

List<GeoPoint> points = new ArrayList<GeoPoint>(); 

points.add(new GeoPoint (40.8414900000, 111.7519900000)); 

points.add(new GeoPoint (29.5647100000, 106.5507300000)); 

points.add(new GeoPoint (31.2303700000, 121.4737000000)); 

QueryBuilder geoPolygonQuery =QueryBuilders 
-geoPolygonQuery ("location", points); 


8.7.6 ”特殊 查询 


e more like this query 

String[] fields = ("title", "description"}; 
String[] texts = ("python"); 
MoreLikeThisQueryBuilder.Item[] items - null; 
QueryBuilder moreLikeThisQuery -QueryBuilders 
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.moreLikeThisQuery (fields, texts, items) 
.minTermFreq(1) 
.maxQueryTerms (12); 


* script query 


QueryBuilder scriptQuery -QueryBuilders.scriptQuery( 
new Script("doc['price'].value » 80") 
); 


€ percolate query 
设置 mapping: 


client.admin().indices().prepareCreate ("my_index") 
.addMapping("queries", "query", "type=percolator") 
.addMapping("laptop", "price", "type-long","name","type-text") 
.get (); 


注册 query: 


QueryBuilder boolQuery = QueryBuilders.boolQuery () 
.must (QueryBuilders.rangeQuery ("price") .1te (10000) ) 
.must (QueryBuilders.matchQuery ("name", "macbook") ) ; 
client ().prepareIndex("my_ index", "queries", "1") 
. setSource (jsonBuilder ( 
. StartObject () 
-field("query", boolQuery) 
.endObject () ) 
.setRefreshPolicy (WriteRequest.RefreshPolicy.IMMEDIATE) 


“get () 7 

执行 查询 : 

XContentBuilder docBuilder = XContentFactory.jsonBuilder() 
.startObject () 


.field("price", 9999) 
-field("name", "macbook on sale") 
.endObject () ; 
PercolateQueryBuilder percolateQuery = new PercolateQueryBuilder ("query", 
"laptop", docBuilder.bytes()); 


88 聚合 分 析 


这 一 节 介绍 聚合 分 析 的 Java APT, 首先 通过 例子 给 出 求 books 索引 中 图 书 价 格 最 大 值 的 方 
法 ， 代 码 如 代码 清单 8-3 所 示 。 
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代码 清单 8-3 ”聚合 查询 最 大 值 


import 
import 
import 


import 


public 


org.elasticsearch.action.search.SearchResponse; 


org.elasticsearch.search.aggregations.AggregationBuilders; 


org.elasticsearch.search.aggregations.metrics.max.Max; 


org.elasticsearch.search.aggregations.metrics.max 


.MaxAggregationBuilder; 


class MaxAggregationTest ( 


public static void main(String[] args) ( 


MaxAggregationBuilder aggregation = 
AggregationBuilders 
.max ("agg") 
.field("price"); 
SearchResponse sr - client().prepareSearch ("books") 
-addAggregation (aggregation) 
.get (); 
Max agg = sr.getAggregations() .get ("agg"); 
double value = agg.getValue(); 
System.out.printin (value); 


= 
3 
B 
= 


8.8.1 指标 聚合 
求 最 小 值 、 求 和 、 求 平均 值 、 基 本 统计 、 高 级 统计 、 基 数 统计 、 百 分 位 统计 的 核心 代码 


如 下 。 


e Min Aggregation 


MinAggregationBuilder minAgg = AggregationBuilders.min ("agg") 


field ("price"); 


SearchResponse response =client 


-prepareSearch ("books") . addAggregation (minAgg) 


.execute () .actionGet (); 


Min min = response.getAggregations ().get ("agg"); 


double minValue = min.getValue(); 


System.out.println (minValue); 


// 注 释 1 
// 注 释 2 
// 注 释 3 


// 注 释 4 
// 注 释 5 


注释 1: 使 用 AggregationBuilders 创建 一 个 求 最 大 值 的 聚合 查询 ， 聚 合 字段 为 price。 
注释 2: 设置 要 搜索 的 索引 名 。 

注释 3: 调用 addAggregation 方法 。 
注释 4: 通过 SearchResponse 对 象 返 
注释 5: 获取 最 终 的 聚合 结果 。 
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e Sum Aggregation 


SumAggregationBuilder sumAgg - AggregationBuilders.sum("agg") 
.field("price"); 

SearchResponse response - client().prepareSearch ("books") 
.addAggregation (sumAgg) .execute () .actionGet () ; 

Sum sumvalue = response.getAggregations().get("agg"); 


System.out.println (sumvalue.getValue()); 
e Avg Aggregation 


AvgAggregationBuilder avgAgg = AggregationBuilders.avg ("agg") 
.field("price"); 

SearchResponse response = client () .prepareSearch ("books") 
.addAggregation (avgAgg) .execute() .actionGet (); 

Avg avg = response.getAggregations().get ("agg"); 

double avgValue = avg.getValue(); 

System.out.println (avgValue) ; 


e Stats Aggregation 


StatsAggregationBuilder statsAgg = AggregationBuilders.stats("agg" 
.field("price") ; 

SearchResponse response = client() .prepareSearch ("books") 
.addAggregation (statsAgg) .execute().actionGet (); 

Stats statsValues = response.getAggregations() .get ("agg"); 

System.out.println(statsValues.getMin()); 

System.out.println(statsValues.getMax()); 

System.out.println(statsValues.getAvg()); 

System.out.println(statsValues.getSum()); 

System.out.println(statsValues.getCount()); 


e Extended Stats Aggregation 


ExtendedStatsAggregationBuilder extendedStatsAgg = 
AggregationBuilders.extendedStats ("agg") .field("price") ; 
SearchResponse response = client() .prepareSearch ("books") 
-addAggregation (extendedStatsAgg) .execute() .actionGet (); 
ExtendedStats extendedStatsValue = response.getAggregations () 
.get ("agg"); 
System. out.println (extendedStatsValue.getMin()); 
System.out.println (extendedStatsValue.getMax()); 
System.out.println (extendedStatsValue.getAvg()); 
System.out.println (extendedStatsValue.getSum()); 
System.out.println (extendedStatsValue.getStdDeviation()); 
System.out.println (extendedStatsValue.getSumOfSquares ()); 
System.out.println (extendedStatsValue.getVariance()); 
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e Cardinality Aggregation 


CardinalityAggregationBuilder cardAgg = AggregationBuilders 
-cardinality ("agg") .field ("language") ; 

SearchResponse response = client() .prepareSearch ("books") 
.addAggregation (cardAgg) .execute() .actionGet (); 

Cardinality cardValue = response.getAggregations().get ("agg"); 

System.out.println (cardValue.getValue()); 


e Percentiles Aggregation 


PercentilesAggregationBuilder percentAgg = AggregationBuilders 
.percentiles ("agg") .field("price"); 
SearchResponse response = client().prepareSearch ("books") 
.addAggregation (percentAgg) .execute() .actionGet (); 
Percentiles percentValue = response.getAggregations().get ("agg"); 
for (Percentile entry : percentValue) { 
double percent = entry.getPercent(); 
double pValue = entry.getValue(); 
System.out.printf ("percent [%f], value [{%f}]", percent, 
pValue); 
} 


e Value Count Aggregation 


ValueCountAggregationBuilder aggregation = AggregationBuilders 
.Count ("agg") .field("author"); 

SearchResponse response = client() .prepareSearch ("books") 
.addAggregation (aggregation) .execute() .actionGet (); 

ValueCount agg = response.getAggregations().get ("agg"); 

long value = agg.getValue(); 

System.out.println (value); 


8.82 RA 


e Terms Aggregation 


TermsAggregationBuilder termAgg - AggregationBuilders 
.terms ("per count").field("language"); 

SearchResponse response = EsUtils.getSingleTransportClient () 
-prepareSearch ("books") . addAggregation (termAgg) 
.execute().actionGet(); 

Terms genders - response.getAggregations().get("per count"); 

for (Terms.Bucket entry : genders.getBuckets()) ( 
System.out.println(entry.getKey()-*"---"*entry.getDocCount ()) ; 
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e Filter Aggregation 


FilterAggregationBuilder filterAgg = AggregationBuilders 
.filter("agg", QueryBuilders.termQuery("title", "java")); 

SearchResponse response =client() .prepareSearch ("books") 
.addAggregation (filterAgg) .execute() .actionGet (); 

Filter agg = response.getAggregations() .get ("agg"); 

System.out.println (agg.getDocCount () ) 7 


e Filters Aggregation 


AggregationBuilder filtersAgg =AggregationBuilders 
.filters("agg",new FiltersAggregator.KeyedFilter("java", 
QueryBuilders.termQuery("title", "java")),new 
FiltersAggregator.KeyedFilter("python", 
QueryBuilders.termQuery("title", "python"))); 

SearchResponse response = client().prepareSearch ("books") 
.addAggregation(filtersAgg).execute().actionGet(); 

Filters agg = response.getAggregations().get("agg"); 

for (Filters.Bucket entry : agg.getBuckets()) ( 

String key - entry.getKeyAsString(); 

long docCount - entry.getDocCount (); 

System.out.println(key + "---" + docCount); 
) 


e Range Aggregation 


AggregationBuilder rangeAgg -AggregationBuilders 
. range ("agg") 
.field("price") 
.addUnboundedTo (50) 
.addRange (50, 80) 
-addUnboundedFrom(80); 
SearchResponse response = client().prepareSearch ("books") 
.addAggregation (rangeAgg) .execute() .actionGet () ; 
Range agg = response.getAggregations() .get ("agg"); 
for (Range.Bucket entry : agg.getBuckets()) { 
String key = entry.getKeyAsString(); 
Number from = (Number) entry.getFrom(); 
Number to = (Number) entry.getTo(); 
long docCount = entry.getDocCount () ; 
System. out.printin (key+"--"+docCount) ; 
} 


e Date Range Aggregation 


AggregationBuilder dateAgg = AggregationBuilders 
.dateRange ("agg") 
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-field("publish_time") 
. format ("yyyy-MM-dd") 
-addUnboundedTo ("now-24M/M") 
-addUnboundedFrom ("now*24M/M") ; 
SearchResponse response - client().prepareSearch ("books") 
-addAggregation (dateAgg) .execute () . actionGet () ; 
Range agg = response.getAggregations ().get ("agg"); 
for (Range.Bucket entry : agg.getBuckets()) ( 
String key = entry.getKeyAsString(); 
DateTime fromAsDate - (DateTime) entry.getFrom(); 
DateTime toAsDate - (DateTime) entry.getTo(); 
long docCount = entry.getDocCount(); 


System.out.println(key+"--"+docCount) ;// Doc count 


} 
e Date Histogram Aggregation 


AggregationBuilder dateHisAgg =AggregationBuilders 
-dateHistogram("agg") 
.field("publish time") 
-dateHistogramInterval (DateHistogramInterval . YEAR) ; 
SearchResponse response =client() .prepareSearch ("books") 
.addAggregation (dateHisAgg) 
.execute () .actionGet (); 
Histogram agg = response.getAggregations() .get ("agg"); 
for (Histogram.Bucket entry : agg.getBuckets()) { 
DateTime key = (DateTime) entry.getKey(); 
String keyAsString = entry.getKeyAsString(); 
long docCount = entry.getDocCount () ; 
System.out.printlin(key+"--"+docCount) ; 
} 
e Missing Aggregation 
MissingAggregationBuilder missAgg = AggregationBuilders 
-missing ("agg") .field("price") ; 
SearchResponse response =client() .prepareSearch ("books") 
-addAggregation (missAgg) .execute() .actionGet (); 
Missing agg = response.getAggregations().get ("agg"); 
System. out.printl1n(agg.getDocCount () ) 7 


e Children Aggregation 


AggregationBuilder childrenAgg =AggregationBuilders 
.children("agg", "employee"); 

SearchResponse response - client().prepareSearch ("company") 
.addAggregation (childrenAgg) .execute() .actionGet (); 
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Children agg = response.getAggregations() .get ("agg"); 
System.out .println(agg.getDocCount ()) ; 


e Geo Distance Aggregation 


AggregationBuilder geoDistanceAgg =AggregationBuilders 
-geoDistance("agg", new GeoPoint (34.3412700000, 108.9398400000) ) 
.field("location") 

.unit (DistanceUnit.KILOMETERS) 
-addUnboundedTo (500) 
.addRange(500, 1000) 
-addUnboundedFrom (1000) ; 

SearchResponse response = EsUtils.getSingleTransportClient () 
.prepareSearch ("geo") 

.addAggregation (geoDistanceAgg) 
execute () .actionGet(); 

Range agg = response.getAggregations().get ("agg"); 

for (Range.Bucket entry : agg.getBuckets()) ( 
String key - entry.getKeyAsString(); 
Number from - (Number) entry.getFrom(); 
Number to - (Number) entry.getTo(); 
long docCount = entry.getDocCount(); 
System.out.println(key + "--" + docCount); 


e IP Range Aggregation 


IpRangeAggregationBuilder ipAgg - AggregationBuilders 
.ipRange ("agg") 
.field("ip") 
-addUnboundedTo ("100.0.0.5") 
-addUnboundedFrom("100.0.0.5 "); 
SearchResponse response = EsUtils.getSingleTransportClient () 
.prepareSearch("ip test") 
-addAggregation (ipAgg) 
.execute () .actionGet(); 
Range agg = response.getAggregations() .get ("agg"); 
for (Range.Bucket entry : agg.getBuckets()) { 
String key = entry.getKeyAsString(); 
String fromAsString = entry.getFromAsString(); 
String toAsString = entry.getToAsString(); 
long docCount = entry.getDocCount (); 
System. out.printin(key+"---"+docCount) ; 
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89 ”集群 管理 


和 索引 管理 类 似 , 集群 管理 通过 创建 ClusterAdminClient 对 象 可 以 获取 集群 和 索引 的 健康 
状态 、 集 群 状态 。 创 建 ClusterAdminClient 对 象 的 方法 如 代码 清单 8-3 所 示 。 


ClusterHealthResponse healths = client().admin().cluster() 
.PrepareHealth() .get (); 

String clusterName = healths.getClusterName () ; 

int numberOfDataNodes = healths.getNumberOfDataNodes () ; 

int numberOfNodes = healths.getNumberOfNodes(); 

for (ClusterIndexHealth health : healths.getIndices().values()) { 
String index = health.getIndex(); 
int numberOfShards = health.getNumberOfShards () ; 
int numberOfReplicas = health.getNumberOfReplicas(); 
ClusterHealthStatus status = health.getStatus(); 


8.10 “本章 小 结 


本 章 介 绍 了 Elasticsearch Java API 的 使 用 方法 , 重点 介绍 了 如 何 通过 客户 端 对 象 进行 文档 
的 CRUD、 搜 索 、 聚 合 等 操作 。 


本 章 学 习 要 点 : 

% 集群 规划 * 查看 集群 健康 状态 
* 索引 规划 * 如 何 使 用 监控 插件 
k 分 布 式 集群 配置 


9.1 


集群 规划 


当 我 们 计划 搭建 一 个 Elasticsearch 集群 的 时 候 ， 面 临 的 第 一 个 问题 是 这 个 集群 需要 多 少 个 节 
点 ? 一 个 集群 中 有 多 少 个 节点 受 多 种 因素 的 影响 ， 就 数据 量 而 言 ， 如 果 数 据 量 不 大 ， 那 么 几 台 机 
器 就 能 满足 需求 ， 如 果 数据 量 非常 庞大 ， 需 要 几 百 台 机 器 也 是 有 可 能 的 。 一 个 集群 中 使 用 的 硬件 
资源 要 根据 业务 的 数据 量 大 小 来 确定 ,如果 条 件 多 许 ， 服 务 器 性 能 和 服务 器 数量 当然 是 多 多 益 善 。 


节点 数 确 定 以 后 会 面临 第 二 个 问题 : 集 


群 应 该 设置 多 少 个 master 节点 ? 在 回答 这 个 问题 


之 前 , 我 们 先 来 了 解 一 下 什么 是 脑 裂 。 所 谓 脑 裂 问题 ， 就 是 同一 个 集群 中 的 不 同 节点 对 于 集群 
的 状态 有 了 不 一 样 的 理解 ， 脑 裂 问题 是 分 布 式 集群 环境 中 必然 会 遇 到 的 问题 。 
首先 看 一 个 有 两 个 节点 的 Elasticsearch 集群 的 简单 情况 。 集群 维护 一 个 单个 索引 并 有 一 个 


分 片 和 一 个 副本 。 如 


点 


点 
如 


2 保存 复制 分 片 CORO 。 
假设 现在 由 于 网 络 问题 或 其 他 原因 ， 两 
这 时 两 个 节点 都 相信 对 方 已 经 挂 了 ， 节 


,但 是 节点 2 会 自动 选举 它 自己 为 主 节点 ， 


图 9-3 所 示 。 在 Elasticsearch 集群 中 是 由 3 


图 9-1 所 示 ， 节 点 1 在 启动 时 被 选举 为 主 节 点 并 保存 主 分 片 (0OP) ， 而 节 


个 节点 之 间 的 通信 发 生 中 断 ， 如 图 9-2 所 示 。 

点 1 不 需要 做 什么 ， 因 为 它 本 身 就 被 选举 为 主 节 
因为 节点 2 和 集群 的 主机 点 之 间 已 经 无 法 通信 了 ， 
节点 来 决定 将 分 片 分 配 到 从 节点 的 ， 节 点 2 保存 


的 是 副本 分 片 ， 但 它 相信 主 节 点 不 可 用 了 ， 所 以 它 会 自动 提升 从 节点 为 主 节 点 。 


Node1 
(M) HX- Node2 


图 9-1 两 个 节点 的 Elasticsearch 集群 92 ”两 个 节点 的 Elasticsearch 集群 网 络 中 断 
Node1 Node2 
(M) (M) 


9-3 ”两 个 节点 的 Elasticsearch 集群 各 自 为 Master 节点 


现在 集群 处 于 不 一 致 的 状态 , 发 送 到 节点 1 上 的 索引 请 求 不 会 将 数据 分 配 到 节点 2， 同 时 
发 送 到 节点 2 的 请 求 也 不 会 将 数据 分 配 到 节点 1。 在 这 种 情况 下 ， 分 片 的 两 份 数据 分 开 了 ， 如 
果 不 做 一 个 全 量 的 重 索引 ， 就 很 难 对 它们 进行 重 排序 。 在 更 坏 的 情况 下 ， 一 个 对 集群 无 感知 的 
索引 客户 端 (例如 使 用 REST 接口 的 ) ， 这 个 问题 非常 透明 难以 发 现 ， 请 求 仍然 会 成 功 完成 。 
问题 只 有 在 搜索 数据 时 才 会 被 隐约 发 现 : 取决 于 搜索 请 求 命中 了 哪个 节点 ， 结 果 都 会 不 同 。 

要 避免 脑 裂 的 发 生 ， 可 以 在 Elasticsearch 的 配置 文件 Config 目录 中 的 elasticsearch.yml) 
中 做 一 些 避 免 脑 裂 的 配置 。 一 个 常用 的 参数 是 discovery.zen.minimum_master_nodes， 这 个 参数 
决定 了 主 节点 选择 过 程 中 最 少 需 要 有 多 少 个 master 节点 , 默认 配置 是 1。 一 个 基本 的 原则 是 这 
里 需要 设置 成 N2+1，N 是 集群 中 节点 的 数量 。 例 如 在 一 个 3 节点 的 集群 中 ， 
minimum_master_nodes 应 该 被 设 为 2。 

我 们 再 来 看 之 前 两 个 节点 的 情况 ， 如 果 我 们 把 discovery.zen.minimum_master_nodes 设置 
成 2， 当 两 个 节点 的 通信 失败 时 ， 节 点 1 会 失去 它 的 主 状 态 ， 同 时 节点 2 也 不 会 被 选举 为 主 

避免 脑 裂 的 另 一 个 参数 是 discovery.zen.ping.timeout， 它 的 默认 值 是 3 秒 ， 并 且 它 用 来 决 
定 节点 之 间 网 络 通信 的 等 待 时 间 。 如 果 网 络 环境 较 差 ， 可 以 将 这 个 值 调 的 大 一 点 。 这 个 参数 不 
仅 适 用 于 高 网 络 延迟 的 情况 ， 还 能 在 一 个 节点 超载 响应 慢 时 起 作用 。 

2 节点 集群 中 把 minimum. master nodes 参数 设 成 2 可 以 避免 脑 裂 的 发 生 ， 但 是 在 这 种 情 
况 下 如 果 一 个 节点 挂 了 ， 整 个 集群 就 都 挂 了 。 如 果 你 刚 开 始 使 用 Elasticsearch， 建 议 配置 一 个 
3 节点 集群 ,设置 minimum master nodes 为 2, 这 样 可 以 减少 脑 袭 的 可 能 性 并 保持 高 可 用 的 优 
点 ， 即 使 一 个 节点 失效 ， 但 集群 还 是 可 以 正常 运行 的 。 
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9.2 索引 规划 


Elasticsearch 集群 搭建 完成 以 后 创建 索引 是 开始 搜索 之 旅 的 第 一 步 ， 默 认 情 况 下 一 个 索引 
的 分 片 数 是 5， 副 本 数 是 1。 我 们 知道 分 片 是 把 一 个 大 的 索引 分 成 多 份 放 到 不 同 的 节点 上 来 加 
速 查询 效率 ， 如 图 9-4 所 示 ， 当 用 户 发 送 一 个 查询 请 求 以 后 ，Elasticsearch 会 把 请 求 转发 到 不 
同 的 节点 上 , 分 别 到 各 个 分 片上 进行 搜索 , 然后 把 各 个 分 片 的 搜索 结果 合并 ,最 后 返回 搜索 结 


在 分 发 查询 请 求 、 合 并 搜索 结果 的 时 候 会 浪费 时 间 。 那么 一 个 索引 的 分 片 为 5 是 否 总 能 满足 需 
AR? 创建 索引 时 应 该 如 何 设置 分 片 数 ? 


图 9-4 Elasticsearch 搜索 分 片 过程 


分 片 数量 的 确定 从 根本 上 来 讲 是 看 查询 的 效率 ， 有 些 情 况 下 响应 时 间 要 求 是 毫秒 级 ， 有 
些 情况 下 要 求 是 秒 级 , 所 以 分 片 的 数量 以 能 够 最 大 化 查询 效率 为 原则 。 查询 的 响应 时 间 受 多 个 
变量 的 影响 ， 挑 出 一 些 重要 的 总 结 如 下 。 


。 服务 器 的 性 能 ， 服 务 器 的 内 存 大 小 、CPU 性 能 等 参数 对 查询 效率 有 很 大 的 影响 ， 同 样 的 数 
据 分 成 相同 多 个 分 片 ， 性 能 好 的 服务 器 响应 时 间 更 快 。 
。 硬盘 : 使 用 普通 硬盘 和 SSD 高 度 硬盘 在 性 能 上 有 着 很 大 的 差别 ,同样 的 数据 ， 在 普通 硬盘 
上 的 查询 时 间 不 能 满足 系统 对 响应 时 间 的 要 求 ， 也 许 数据 放 到 SSD 上 就 能 满足。 
。 文档 结构 的 复杂 度 : 复杂 结构 的 文档 比 结构 简单 的 文档 需要 消耗 更 多 的 资源 ， 查 询 时 间 也 
会 延长， 文档 结构 的 复杂 程度 会 影响 搜索 效率 。 
e 查询 语句 的 复杂 程度 :复杂 查询 ， 尤 其 是 嵌 套 搜索 、 取 合 分 析 会 比 简单 查询 更 加 耗 时 。 
Elasticsearch 官网 提供 了 单机 性 能 测试 的 方法 ， 通 过 测试 一 台 服务 器 上 的 一 个 分 片 估算 N 
台 服 务 器 的 性 能 ,一 旦 获取 单个 分 片 的 性 能 ， 再 考虑 整个 文档 的 大 小 以 及 预期 的 增长 等 因素 就 
可 以 确定 N 台 服 务 器 下 的 分 片 数 。 测 试 步 又 如 下 
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ED 创建 一 个 单 节点 组 成 的 服务 器 ， 使 用 生产 环境 下 相同 的 硬件 配置 。 

CXX0 创建 一 个 索引 ,使 用 生产 环节 下 要 使 用 的 设置 和 分 词 器 , 索引 只 设置 一 个 主 分 片 ， 不 设 
置 副本 。 

EI 索引 真实 (或 者 尽 可 能 真实 ) 的 文档 到 索引 中 。 

CET 执行 尽 可 能 接近 真实 的 查询 和 聚合 。 


在 做 性 能 测试 之 前 ， 应 尽 可 能 地 先 优化 Elasticsearch， 比 如 说 检查 是 否 使 用 了 低 效率 的 查 
询 ， 检 查 服务 器 内 存 是 否 足 够 大 ， 检 查 swap 交换 区 是 否 足够 大 。 


9.3 分布 式 集群 


Elasticsearch 集群 中 的 节点 一 般 有 3 种 角色 ， 在 搭建 完全 分 布 式 集群 以 前 需要 在 配置 文件 
中 指定 节点 的 角色 ， 简 介 如 下 。 


e master 节点 : master 节点 主要 负责 元 数据 的 处 理 ， 比 如 索引 的 新 增 、 删 除 、 分 片 分 配 等 ， 
每 当 元 数据 有 更 新 时 ，master 节点 负责 同步 到 其 他 节点 上 。 
e data 节点 : data 节点 上 保存 了 数据 分 片 。 它 负责 数据 相关 操作 ， 比 如 分 片 的 增删 改 查 以 及 


搜索 和 整合 操作 。 
e client 节点 : client 节点 起 到 路 由 请 求 的 作用 ， 实 际 上 可 以 看 作 负 载 均衡 器 ， 适 用 于 高 并 发 
访问 的 业务 场景 。 


准备 3 台 Linux 虚拟 机 ， 虚 拟 地 址 分 别 为 10.90.4.7、10.90.4.8 和 10.90.4.9, 在 这 3 台 虚 拟 
机 上 分 别 安装 好 Elasticsearch 5.4.0， 集 群 名 称 设置 为 ucas， 节 点 名 依次 为 node-07、node-08、 
node-09。 为 了 避免 脑 裂 ，3 台 机 器 的 集群 master 节点 应 为 2 个 ， 选 取 10.90.4.7 和 10.90.4.8 这 


两 个 节点 上 的 Elasticsearch 作为 master 节点 ，10.90.4.9 的 节点 只 作为 client 节点 (如 果 没 有 处 
理 高 并 发 访问 的 需求 ，client 节点 可 以 不 添加 ， 这 里 只 做 演示 ) 。 集 群 的 架构 图 如 图 9-5 所 示 。 


Client Node 


Cluster:ucas 
Node : node-09 


Host: 10. 90. 4. 9 


Cluster :ucas Cluster :ucas 


Node: node-08 Node:node-07 
Host: 10. 90. 4. 8 Host: 10. 90. 4. 7 
Master Node Master Node 


9-5 Elasticsearch 集群 架构 图 
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各 节点 config/elasticsearch.yml 中 的 配置 如 下 : 
e ”10.90.4.7 服务 器 上 的 配置 


cluster.name: ucas 
node.name: node-07 
network.host: 10.90.4.7 
http.port: 9200 
http.cors.enabled: true 
http.cors.allow-origin: "*" 
node.master: true 
node.data: true 


discovery.zen.ping.unicast.hosts: ["10.90.4.7","10.90.4.8"] 
e 10.90.4.8 服务 器 上 的 配置 


cluster.name: ucas 
node.name: node-08 
network.host: 10.90.4.8 
http.port: 9200 
http.cors.enabled: true 
http.cors.allow-origin: "*" 
node.master: true 
node.data: true 


discovery.zen.ping.unicast.hosts: ["10.90.4.7","10.90.4.8"] 


e 10.90.4.9 服务 器 上 的 配置 


cluster.name: ucas 

node.name: node-09 

network.host: 10.90.4.9 

http.port: 9200 

http.cors.enabled: true 

http.cors.allow-origin: "*" 

node.master: false 

node.data: false 

discovery.zen.ping.unicast.hosts: ["10.90.4.7","10.90.4.8"] 


如 图 9-6 所 示 , 配置 完成 以 后 分 别 启动 各 个 虚拟 机 中 的 Elasticsearch, 通过 Head 插件 访问 
可 以 看 到 一 个 3 节点 集群 。 

集群 搭建 好 以 后 有 一 项 很 重要 的 工作 ， 就 是 对 集群 的 使 用 情况 进行 监控 ， 对 于 一 个 多 节 
点 集群 ， 由 于 网 络 连接 问题 ， 出 现 宕 机 、 脑 裂 等 异常 情况 都 是 有 可 能 发 生 的 。Elasticsearch 提 
供 了 CatAPI 和 Cluster API， 可 以 方便 地 获取 集群 的 健康 情况 、 集 群 状态 、 节 点 状态 、 索 引 统 


计 等 信息 。 


Elasticsearch napyioso4sezoo Comect ucas EE CH 
Overview Indices Browser Structured Query [+] Any Request [+] 
Custer Overview ESI Ee Ie teat =| 
logstash-2016.12.19 books -kibana 
size: 242ki (436ki) size: 28.0ki (55.9ki) size: 3.07ki (6.14ki) 
docs: 138 (276) docs: 5 (10) docs: 1 (2) 


ese. DARA amaaa Oo 
+. 回回 回回 团 BIDEBS E 


node-09 


图 9-6 Head 插件 中 访问 Elasticsearch 集群 


9.4 Cat API 


9.4.1 cat aliases 


cat aliases 命令 用 于 显示 索引 的 别名 ， 也 包括 过 滤器 和 路 由 信息 。 命 令 如 下 : 
GET /_cat/aliases?v 


可 能 的 响应 信息 如 下 : 


alias index filter routing.index routing.search 
aliasl testl = - = 

alias2 testl x: - = 

alias3 testl - 

alias4 testl = 2 


9.4.2 cat allocation 


cat allocation 命令 可 以 查看 每 个 节点 分 片 的 分 配 数量 以 及 它们 所 使 用 的 硬盘 空间 大 小 。 命 
令 如 下 : 
GET /_cat/allocation?v 


可 能 的 响应 信息 如 下 : 


shards disk.indices disk.used disk.avail disk.total disk.percent host ip node 


85 — 32.4mb 147.3gb 52.6gb 199.9gb 73 172.31.44.9 172.31.44.9 ovSPGIe 
9.4.3 cat count 


cat count 命令 可 以 快速 查询 整个 集群 或 者 单个 索引 的 文档 数量 。 命 令 如 下 : 


GET /_cat/count?v 
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响应 信息 如 下 : 
epoch timestamp count 


1505666033 00:33:53 5616 
查看 一 个 索引 的 文档 数量 : 
GET /_cat/count/books?v 


9.4.4 cat fielddata 


cat fielddata 命令 用 于 查看 当前 集群 中 每 个 数据 节点 上 被 fielddata 所 使 用 的 堆 内 存 大 小 。 
命令 如 下 : 


GET /_cat/fielddata?v 


响应 信息 如 下 : 

id host ip node field size 
ovSPGIe 172.31.44.9 172.31.44.9 ovSPGIe _parent#branch 704b 
ovSPGIe 172.31.44.9 172.31.44.9 ovSPGIe _parent#question 376b 
ovSPGIe 172.31.44.9 172.31.44.9 ovSPGIe parent 1kb 


9.4.5 cat health 
cat health. 命令 用 于 显示 集群 的 健康 信息 。 命 令 如 下 : 
GET /_cat/health?v 


9.4.6 cat indices 


cat indices 命令 可 以 查看 索引 信息 , 包括 索引 健康 状态 、 索 引 开 关 状 态 、 分 片 数 、 副 本 数 、 
文档 数量 、 标 记 为 删除 的 文档 数量 、 占 用 的 存储 空间 等 信息 。 命 令 如 下 : 

GET /_cat/indices/?v 

上 面 的 命令 会 返回 集群 中 所 有 索引 的 信息 ， 也 可 以 查看 一 个 索引 的 信息 : 

GET /_cat/indices/books?v 

响应 信息 如 下 : 


health status index uuid pri rep docs.count docs.deleted store.size 


pri.store.size 
green open books yYOp 5 0 6 0 27.4kb 27.4kb 


9.4.7 cat master 


cat master 命令 可 以 显示 master 节点 的 节点 ID、 绑 定 的 JP 和 节点 名 。 命 令 如 下 : 


GET /_cat/master?v 


响应 信息 如 下 : 
id host ip node 
ovSPGIe 172.31.44.9 172.31.44.9 ovSPGIe 


9.4.8 cat nodeattrs 
cat nodeattrs 命令 可 以 显示 指定 节点 的 属性 信息 。 命 令 如 下 : 


GET /_cat/nodeattrs?v 


响应 信息 如 下 : 
node host ip attr value 


DKDM97B epsilon 192.168.1.8 rack rack314 
DKDM97B epsilon 192.168.1.8  azone us-east-1 


9.4.9 cat nodes 
cat nodes 命令 可 以 查看 集群 拓扑 结构 。 命 令 如 下 : 


GET /_cat/nodes/?v 


响应 信息 如 下 : 
ip heap.percent ram.percent cpu load 1m load 5m load 15m node.role master name 
172.31.44.9 13 76 4 mdi * ovSPGIe 


9.4.10 cat pending tasks 
cat pending tasks 命令 用 于 查看 正在 执行 的 任务 列表 。 命 令 如 下 : 


GET /_cat/pending tasks?v 


响应 信息 如 下 : 

insertOrder timeInQueue priority source 

1685 855ms HIGH update-mapping [foo] [t] 
1686 843ms HIGH update-mapping [foo] [t] 
1693 753ms HIGH refresh-mapping [foo] [[t]] 


9.4.11 cat plugins 
cat plugins 命令 用 于 查看 每 一 个 节点 所 运行 插件 的 信息 。 命 令 如 下 : 


GET /_cat/plugins?v 


响应 信息 如 下 : 
name component version 


ovSPGIe analysis-ik 5.4.0 
ovSPGIe mapper-size 5.4.0 
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9.4.12 catrecovery 
cat recovery 命令 是 一 个 索引 分 片 恢复 的 视图 ， 包括 恢复 中 的 和 先前 已 完成 的 。 命 令 如 下 : 
GET /_cat/recovery/books?v 

9.4.13 cat repositories 


cat repositories 命令 用 于 展示 集群 中 注册 的 快照 库 。 命 令 如 下 : 


GET /_cat/repositories?v 


响应 信息 如 下 : 
id type 
repol fs 
repo2  s3 


9.4.14 cat thread pool 


thread pool 命令 用 于 展示 集群 中 每 一 个 节点 线程 池 的 统计 信息 。 默 认 情况 下 返回 所 有 线 
程 池 的 active、queue 和 rejected 的 统计 信息 。 命 令 如 下 : 


GET /_cat/thread_pool?v 


响应 信息 如 下 : 

node_name name active queue rejected 
ovSPGIe bulk 0 0 0 
ovSPGIe fetch shard started 0 0 0 
ovSPGIe fetch shard store 0 0 0 
ovSPGIe flush 0 0 0 
ovSPGIe force merge 0 0 0 
ovSPGIe generic 0 0 0 
ovSPGIe get 0 0 0 
ovSPGIe index 0 0 0 
ovSPGIe listener 0 0 0 
ovSPGIe management 1 0 0 
ovSPGIe refresh 0 0 0 
ovSPGIe search 0 0 0 
ovSPGIe snapshot 0 0 0 
ovSPGIe warmer 0 0 0 


9.4.15 cat shards 


cat shards 命令 用 于 查看 节点 包含 的 分 片 信息 ,包括 一 个 分 片 是 主 分 片 还 是 一 个 副本 分 片 、 
文档 的 数量 、 硬 盘 上 占用 的 字 节 数 、 节 点 所 在 的 位 置 等 信息 。 命 令 如 下 : 


GET /_cat/shards/books?v 
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响应 信息 如 下 : 
index shard prirep state docs store ip node 
books 3 P STARTED 2 10.4kb 172.31.44.9 ovSPGIe 
books 1 P STARTED d 5kb 172.31.44.9 ovSPGIe 
books 4 p STARTED Tt 5.4kb 172.31.44.9 ovSPGIe 
books 2 P STARTED 2 6.3kb 172.31.44.9 ovSPGIe 
books 0 P STARTED 0 159b 172.31.44.9 ovSPGIe 
9.4.16 cat segments 
cat segments 命令 用 于 查看 索引 的 段 信息 ， 命 令 如 下 : 
GET /_cat/segments/books?v 
响应 信息 如 下 : 
index shard prirep ip segment generation docs.count docs.deleted [...] 
books 1 p 172.31.44.9 0 0 1 0 
books 2 p 172.31.44.9 _0 0 2 0 
books 3 p 172.31.44.9 .0 0 1 0 
[...] size size.memory committed searchable version compound 
4.8kb 2592 true true 6.5.0 true 
6.1kb 2976 true true 6.5.0 true 
5.1kb 2592 true true 6.5.0 true 


9.4.17 cattemplates 
cat templates 命令 用 于 查看 集群 中 的 模板 ， 命 令 如 下 : 


GET /_cat/templates?v 


响应 信息 如 下 : 
name template order version 
template 1 te* 0 


9.5 Cluster API 


9.5.1 Cluster Health 


利用 Elasticsearch 的 集群 健康 API 可 以 查看 当前 集群 的 健康 信息 ， 命 令 如 下 : 


GET _cluster/health 
返回 结果 如 下 : 


{ 
"cluster name": "elasticsearch", 


"status": "green", 
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"timed out": false, 

"number of nodes": 1, 

"number of data nodes": 1, 

"active primary shards": 85, 

"active shards": 85, 

"relocating shards": 0, 

"initializing shards": 0, 

"unassigned shards": 0, 

"delayed unassigned shards": 0, 

"number of pending tasks": 0, 

"number of in flight fetch": 0, 

"task max waiting in queue millis": 0, 

"active shards percent as number": 100 
} 
返回 结果 中 各 个 属性 的 含义 解释 如 下 。 
cluster_name: 集群 名 称 。 
status: 集群 的 健康 状态 ， 颜 色 的 含义 如 表 9-1 所 示 。 
timed out: 是 否 超 时 。 
number of nodes: 节点 数 ， 包 括 master 节点 和 data 节点 。 
number of data nodes: data 节点 数 。 
active primary shards: 活动 的 主 分 片 。 
active shards: 所 有 活动 的 分 片 数 ， 包 括 主 分 片 和 副本 。 
relocating_shards: 正在 发 生 迁 移 的 分 片 。 
initializing_shards: 正在 初始 化 的 分 片 。 
unassigned_shards: 没有 被 分 配 的 分 片 。 
delayed unassigned shards: 延迟 未 被 分 配 的 分 片 。 
number_of pending_tasks: master 节点 任务 队列 中 的 任务 数 。 
number_of in_flight_fetch: 正在 进行 迁移 的 分 片 数量 。 
task_max_waiting_in_queue_millis: 队列 中 任务 的 最 大 等 待 时 间 。 
active_shards_percent_as_number: 活动 分 片 的 百分比 。 

上 面 的 命令 用 于 获取 整个 集群 的 健康 信息 ， 也 可 以 增加 参数 索引 名 称 ) ， 获 取 一 个 豆 

多 个 索引 的 健康 信息 ， 命 令 如 下 : 


GET /_cluster/health/books 


表 9-1 集群 健康 颜色 的 含义 


See ee ee 9 ò 9 ea ea eg@ o6 


状态 意义 

green 所 有 主 分 片 和 从 分 片 都 可 用 

yellow 所 有 主 分 片 可 用 ， 但 存在 不 可 用 的 从 分 片 
red 存在 不 可 用 的 主 分 片 


加 上 level 参数 ， 获 取 分 片 级 别 的 健康 信息 


GET /_cluster/health/books?level=shards 


9.5.2 Cluster State 
Cluster State (集群 状态 ) APL 可 以 对 整个 集群 的 信息 进行 一 个 全 面 的 了 解 ， 包 括 集群 信 
息 、 集 群 中 每 个 节点 的 信息 、 元 数据 、 路 由 表 等 。 查 看 集群 状态 的 命令 如 下 : 
GET /_cluster/state 
该 命令 返回 的 信息 多 达 几 百 行 ， 这 里 折 登 处 理 ， 截 图 如 图 9-7 所 示 。 查 看 集群 状态 时 也 可 
以 添加 以 下 参数 进行 过 滤 处 理 ， 只 返回 部 分 信息 。 
Elasticsearch "7995952 comet ucas MENSEN ED 


Overview Indices Browser Structured Query [+] | Any Request [+] 
t 


I 


I 


http;//10.90.4.99200/ cluster/state/ "Raster. noda": "ersgegyQOIRJscexNVYUQ, 
(8E Y "blocks": { }, 
0 Y "nodes: ( 
Y "OOgMFSv2TNuf2eeuCySwOg": { 
"name": "node-08", 
"transport. adóress^: "10.90.4.8:9300*, 


 “Srsge6gyQOIRjsc6xNVYUQ": { "name je-09", "transport. address": *10.90.4.9:9300" "attributes": ( 
> "BObOQtaVSS2macZLqQzHNA": { "name" 7","transport, address": *10,90,4.7:9300", "attributes" 


4T 


"metadata": { 

"duster. uuid": "Gx 3- 29Q0SxiX. sga0KMg", 
> “templates”: ( "logstash': ( "template": "ogstash-"","order": 0, "settings": ( "index": { "refresh. 
P "indices": { “logstash-2016.12.22": { "state settings": { "index": { "creation. date 


i 
3 
g 
E 


P. "books": ( “shards: ( "0": [ { “state 
> ".kibana”: ( "shards í 
> "logstash-2016.12.21 
quest. valdste JSON O Pretty P. ogstash 20161223" {-srards 
Result Transformer ? > “logstash-2016.12.22": { "shards": ( "0 
) 


‘shards’ 


i 
i 
1 


P "BDbDOtaVSS2macZLqQzHNA": [ ( "state": "STARTED", "primary": false, "node": “BDDC 
> "OOgMFSvZTNuf2eeuCySwOg": [ { "state": "STARTED" "primary": true," node" 


9-7 Head 插件 中 查看 集群 状态 


version: 返回 集群 状态 版 本 信息 。 

master_node: 只 返回 master 节点 的 状态 信息 。 

nodes: 返回 集群 中 的 节点 的 配置 信息 ， 主 要 包括 节点 名 称 、IP、 是 否 是 master 节点 。 
routing_table: 返回 每 个 节点 的 路 由 信息 。 

metadata: 返回 元 数据 信息 ， 包 括 每 个 索引 的 mapping, setting 等 信息 。 

blocks: 返回 集群 中 的 块 数据 信息 。 


下 面 给 出 几 个 例子 。 


(1) 只 返回 集群 的 版 本 信息 : GET /_cluster/state/version. 
(2) 返回 集群 中 节点 的 配置 信息 : GET /_cluster/state/nodes. 
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(3) 返回 


books. books2 这 两 个 索引 的 metadata 和 routing table: 


GET / cluster/state/metadata,routing table/books,books2 
9.5.3 Cluster Stats 


Cluster Stats (REO API 用 于 从 集群 中 获取 各 种 统计 数据 。 该 API 的 返回 信息 主要 
有 两 部 分 ， 一 部 分 是 索引 层面 ， 包 含 分 片 数 、 存 储 大 小 、 内 存 使 用 情况 等 指标 ， 另 一 部 分 是 节 
点 层面 ， 包 含 节点 数量 、 节 点 角色 、 操 作 系 统 、jvm 版 本 、 内 存 、CPU、 安 装 的 插件 等 指标 。 
查看 集群 统计 信息 的 命令 如 下 ， 返 回 结果 如 图 9-8 所 示 。 


GET /_cluster/stats 


D History 
very 


0 


Elasticsearch "0949920 cc ucas OR Cu 


Overview Indices Browser Structured Query [+] Any Request (+) 
( 


hitp/10 90.4 99000) chuster/stats/ 


"timestamp": 1482470252812, 
"Custer name": "ucas 


图 9-8 Head 插件 中 查看 集群 统计 信息 


9.5.4 Pending Cluster Tasks 


Pending Cluster Tasks API 用 于 返回 一 个 正在 添加 到 更 新 集群 状态 的 任务 列表 。 集 群 中 的 
变化 通常 是 很 快 的 ， 通 常 这 个 操作 会 返回 一 个 空 的 列表 。 

GET /_cluster/pending tasks 
9.5.5 Cluster Reroute 

reroute 命令 可 以 明确 地 执行 集群 重新 路 由 分 配 命令 。 例 如 ， 把 一 个 分 片 从 一 个 节点 移动 


到 另 一 个 节点 ， 


把 未 分 配 的 分 片 移动 到 一 个 指定 的 节点 。 例 子 如 下 : 


POST /_cluster/reroute 


{ 


"commands": [ 


{ 
"move": { 
"index"; "test", 
"bard": 0; 
"from node": "nodel", 
"to node": "node2" 
H 
}, 
{ 

"allocate replica": ( 
"index": "test", 
"shard": 1, 

"node": "node3" 

} 

} 
] 
} 


9.5.6 Cluster Update Settings 


Update Settings 命令 可 以 更 新 集群 中 的 配置 ， 如 果 是 永久 配置 ， 就 需要 重启 集群 
瞬时 配置 ， 就 不 需要 重启 集群 。 例 如 ， 更 新 最 小 master 节点 数 : 


PUT /_cluster/settings 
{ 
"persistent": { 
"discovery.zen.minimum master nodes": 1 
} 
} 


9.5.7 Nodes Stats 


; 如 果 是 


Cluster Nodes Stats( 集 群 节点 统计 信息 )API 可 以 获取 集群 中 一 个 或 者 多 个 节点 的 统计 信息 。 


获取 集群 中 所 有 节点 的 统计 信息 的 命令 如 下 : 

GET /_nodes/stats 

获取 nodeIdl 和 nodeld2 节点 的 统计 信息 的 命令 如 下 : 
GET /_nodes/nodeId1,nodeId2/stats 


9.5.8 Nodes Info 


Cluster Nodes Info API 可 以 获取 集群 中 一 个 或 多 个 节点 的 信息 ， 包 括 设置 、 操 作 系统 、 虚 


拟 机 、 线 程 池 等 信息 。 命 令 如 下 : 


GET /_nodes 
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获取 指定 节点 的 信息 : 
GET / nodes/nodeIdl, nodeId2 


也 可 以 添加 参数 (settings. os. process. jvm, thread pool, transport, http, plugins. ingest 
和 indices) 返回 指定 信息 。 例 如 ， 查 看 节点 的 os jvm 信息 ， 命 令 如 下 : 


GET / nodes/os,jvm 


9.5.9 Task Management API 


Task Management API 可 用 于 获取 Elasticsearch 集群 中 一 个 或 多 个 节点 正在 执行 中 的 任务 
信息 。 命 令 如 下 : 


GET /_tasks 


9.5.10 Cluster Allocation Explain API 


Cluster Allocation Explain API 用 于 解释 分 片 没 有 被 分 配 的 原因 。 例 如 ， 查 看 my-index 索 
引 中 的 第 0 号 分 片 ， 命令 如 下 : 


GET /_cluster/allocation/explain 
{ 

"index": "my-index", 

"shard": 0, 

"primary": true 


) 


9.6 ”监控 插件 


Bigdesk 是 Elasticsearch 的 一 个 集群 监控 工具 , 可 以 通过 它 来 查看 ES 集群 的 各 种 状态 , 如 
CPU、 内 存 使 用 情况 、JVM 信息 、 索 引信 息 、 搜 索 情况 、HTTP 连接 数 、 磁 盘 系统 信息 等 。 
Bigdesk 托管 在 GitHub 上 ， 项 目地 址 为 https://github.com/hlstudio/bigdesk。 安 装 Bigdesk 插件 
的 方法 如 下 。 

首先 执行 git clone 命令 ， 下 载 bigdesk 源码 : https;//github.com/hlstudio/bigdesk.git. 

然后 在 浏览 器 中 打开 bigdesk-master\_site 目录 下 的 index.html， 在 ES node REST endpoint 
输入 框 中 输入 Elasticsearch 的 连接 地 址 和 端口 即 可 。 


e Summary: 从 左 到 右 依 次 为 内 存 和 CPU 的 使 用 率 、Heap 内 存 使 用 情况 、GC 次 数 和 时 间 、 
索引 段 的 统计 信息 ， 如 图 9-9 所 示 。 

© Indices: 查看 索引 数据 和 查询 情况 。 上 面 4 个 依次 代表 每 秒 的 搜索 请 求 次 数 、 每 秒 的 搜索 
次 数 、 每 秒 的 索引 请 求 次 数 和 每 秒 的 索引 次 数 ， 下 面 4 个 依次 代表 缓冲 区 大 小 、 缓 存 失 效 
个 数 、 每 秒 get 请 求 数量 和 每 秒 的 get 次 数 ， 如 图 9-10 所 示 。 
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ES node REST endpoint rtp//ocahosts200 Refresh every 2sec Ej Keep smn E history — Discomect 


Cluster: mj-appication 
Number of nodes: 1 
Status: yellow 


[E] 


Summary 


Elasticsearch version: 5.4.0 Hostname: 127.0.0.1 OS name: Mac OS X Java version: 1.80 121 VMPID:42932 VM Uptime: 1m 


Resouce Used (%) — = Heap Mem GC(A) Indices Segments : 
26 
Lo 
is EI 4 
100 pe a Tne be (c) Le 
© Mor ls © Commits oo © Ous gar count EL 
© Cpu © Used © Yung gen com © Segre Bon 
ery o D 
Mem: 100% Committed: 1.9gb Total time (O/Y): 76ms / 93ms Shards count: 6 
Cpu: 0% Used: 289.3mb Total count (ON): 1/2 Segments count: 1 


图 9-9 Summary 信息 
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ba oe os 
E WT | LI cet o2 
B MM pe sas E 
L o 0 E Z o 
Query 06 Quero So est 2s 


9-10 Indices 信息 


e Thread Pools: 从 左 到 右 依次 为 Search, Index, Bulk, Refresh 的 线程 统计 情况 ， 有 队列 中 
的 请 求 数 、 峰 值 次 数 、 统 计 次 数 3 个 指标 ， 如 图 9-11 所 示 。 


Thread Pools 


Queue: 0 Queue: 0 
Peak: 0 Peak: 0 
Count: 0 Count: 0 


图 9-11 Thread Pools 信息 
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© OS & JVM & Process & Transport: 服务 器 信息 、 处 理 器 信息 、 线 程 数 、 内 存 使 用 情况 〈 底 
部 蓝 色 为 已 使 用 的 内 存 ) 、HTTP 和 TCP 连接 数 ， 如 图 9-12 所 示 。 


OS & JVM & Process & Transport 


OS Arch: x86_64 Available processors: 4 Load average: n/a File descriptors: 197 / 10240 
VM name: Java HotSpot(TM) 64-Bit Server VM. VM vendor: Oracle Corporation 


Threads NC Mem Channels. P "Transport size (A) 
: zs La : 
EJ n" 3 
2 o La 
© Pk * us © Tanger. Jm on 
© oun © Used oun om 
I I o o 
d» oas de ol do d» os 3 oa 30 m wm 5 w» A d ws 3o one do 
Peak: 50 Free: 24.3mb Transport: 0 Series: weighed avg 
Count: 41 Used: 7.9gb HTTP: 5 Rx: Ob, #0 
HTTP total opened: 5 Tx: Ob, 40 


9-12. OS & JVM & Process & Transport 信息 


e File system: 查看 文件 系统 类 型 、 挂 载 路 径 、 总 的 磁盘 大 小 和 可 用 的 磁盘 大 小 ，path 表示 
Elasticsearch 的 安装 路 径 ， 如 图 9-13 所 示 。 


File system 


Type: hfs Mount: / (/dev/disk1) Free: 24.8gb Available: 24.6gb Total: 111.8gb 
Path: /Users/bee/Documents/elk/es5.4/elasticsearch-5.4.0/data/nodes/O 


图 9-13 File system 信息 
9.7 本章 小 结 


本 章 介绍 了 Elasticsearch 集群 管理 的 相关 知识 点 ， 包 括 脑 裂 问题 、 集 群 规 划 、 索 引 规划 、 
分 布 式 集群 的 搭建 方法 以 及 如 何 查看 集群 的 监控 信息 。 


新 闻 搜 索 项 目 实战 


本 章 学 习 要 点 : 

** Elasticsearch 整合 MySQL 需求 分 析 k 搜索 结果 展示 
k 索引 MySQL 数据 到 Elasticsearch * 关键 字 高 亮 
H 新 闻 搜索 框 和 搜索 结果 页 设计 k 搜索 结果 分 页 


10.1 需求 分 析 


全 文 检索 的 一 个 典型 应 用 是 对 关系 型 数据 库 中 的 数据 建立 索引 进行 搜索 。 这 一 章 通 过 新 
闻 搜 索 的 案例 总 结 前 几 章 的 知识 点 ,通过 项 目 实战 来 学 习 Elasticsearch 与 MySQL 的 整合 应 用 ， 
新 闻 搜索 的 架构 设计 如 图 10-1 所 示 ， 需 要 实现 的 需求 如 下 : 


Elasticsearch 集群 


图 10-1 Elasticsearch 新 闻 搜索 系统 架构 图 
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(1) 能 够 对 新 闻 标题 进行 关键 词 检 索 。 
(2) 能 够 对 新 闻 内 容 进行 关键 词 检 索 。 
(3) 能 够 实现 关键 字 的 高 亮 。 
(4) 能 够 实现 搜索 结果 分 页 显示 。 
数据 导入 完成 以 后 ,创建 一 个 Maven 工程 ,在 pom.xml 中 添加 servlet、mysql-connector-java、 
log4j2 和 Elasticsearch 的 依赖 : 


<dependency> 
<groupId>javax.servlet</groupId> 
<artifactId>javax.servlet-api</artifactId> 
<version>3.1.0</version> 
<scope>provided</scope> 


</dependency> 


<dependency> 
<groupId>mysql</groupId> 
<artifactId>mysql-connector-java</artifactId> 
<version>6.0.6</version> 


</dependency> 


<dependency> 
<groupId>org.elasticsearch.client</groupId> 
<artifactId>transport</artifactId> 
<version>5.4.0</version> 


</dependency> 


<dependency> 
<groupId>org. apache. logging. 1og4j</groupId> 
<artifactId>log4j-api</artifactId> 
<version>2.8.2</version> 

</dependency> 

<dependency> 
<groupId>org. apache. logging.1o0g4j</groupId> 
<artifactId>log4j-core</artifactId> 
<version>2.8.2</version> 


</dependency> 


102 ”数据 准备 


为 了 方便 学 习 ， 这 里 准备 了 几 千 条 体育 新 闻 作为 测试 数据 ， 数 据 保存 在 news.sql 文件 中 。 
导入 数据 到 MySQL 的 步骤 如 下 : 
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ED) 命令 行 登录 MySQL, 
执行 登录 命令 ， mysql -uroot -p， 按 回 车 键 后 输入 MySQL 密码 ， 即 可 进入 MySQL 的 命令 行 


界面 。 
ED 新 建 数据 库 ， 库 名 为 News. 


执行 命令 : create database News。 


E 使 用 News 数据 库 。 


执行 命令 : use News. 


E 执行 SQL 脚本 ， 导 入 数据 。 
执行 命令 :source /your/path/news.sql， 路 径 为 news.sql 的 绝对 路 径 。 


I 查看 数据 。 
新 闻 主要 有 id、 标 题 、 关 键 词 、 新 闻 内 容 、 新 闻 原 始 url、 新 闻 评论 数量 、 新 闻 来 源 、 新 闻 发 布 
时 间 这 8 个 字段 ， 表 结构 如 下 : 


mysql> DESC news; 


*---------- *-------------- 4------ *----- 4--------- 4------- * 
Field Type | Null | Key | Default | Extra | 
*---------- *-------------- 4------ *----- 4--------- 4------- * 
id | bigint(4) | NO | PRI | 0 | | 
title varchar(100) | NO | | NULL | | 

key_word | varchar(50) | YES | | NULL | | 
content | text | YES | | NULL | | 
url | varchar(200) | YES | | NULL | | 
reply int (4) | YES | | NULL | | 
source varchar(50) | YES | | NULL | | 
postdate | datetime | NO | | NULL | | 
+---------- +-------------- 4------ 4----- 4--------- 4------- * 
其 中 一 条 新 闻 的 内 容 如 下 
ads. 


title: 里 皮 让 国足 选 帅 从 未 如 此 众望 所 归 再 踢 不 好 赖 谁 
key word: 里 皮 , 世 预赛 ,国足 
content: 新 浪 体育 讯 千 呼 万 唤 始 出 来 ! 随 着 里 皮 正 式 与 中 国足 协 签约 ， 成 为 
中 国 男 足 新 一 任 主帅 ， 国 足 正式 进入 里 皮 时 代 . . . 
url:http://sports.sina.com.cn/china/national/2016-10-22/doc-37.shtml 
reply: 9784 
Source: sina 
time: 2016-10-22 05:55:00 


导入 完成 以 后 可 以 使 用 SQL 命令 查看 新 闻 数 据 的 具体 内 容 ， 也 可 以 在 Navicat 中 导入 数 
据 、 查 看 数据 ， 如 图 10-2 所 示 。 
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图 10-2 Navicat 中 查看 新 闻 数 据 


103 数据 导 人 


把 MySQL 中 的 数据 导入 Elasticsearch 的 步骤 为 创建 索引 、 设 置 索引 的 映射 、 通 过 JDBC 
导入 数据 。 首 先 创建 单 例 模式 的 TransportClient 对 象 : 


public static final String CLUSTER_NAME = "elasticsearch"; 
final String HOST_IP = "172.31.44.9"; 
final int TCP_PORT = 9300; 


private static volatile TransportClient client; 


public static 
public static 


static Settings settings = Settings.builder() 
.put("cluster.name", CLUSTER NAME) 
.build(); 

public static TransportClient getSingleClient() ( 
if (client -- null) ( 


synchronized (TransportClient.class) ( 


if (client -- null) ( 
try 1 
client - new PreBuiltTransportClient (settings) 


.addTransportAddress (new InetSocketTransportAddress ( 
netAddress.getByName(HOST IP), TCP PORT)); 
) catch (UnknownHostException e) { 
e.printStackTrace(); 
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} 
return client; 


} 


封装 一 个 创建 索引 的 方法 ， 索 引 名 、 分 片 数 和 副本 数 作为 参数 传 入 : 


public static IndicesAdminClient getAdminClient() { 


return getSingleClient ().admin().indices(); 
H 


public static boolean createIndex(String indexName, int shards, 


int replicas) ( 

Settings settings - Settings.builder() 
.put("index.number of shards", shards) 
.put("index.number of replicas", replicas) 
«builid()s 


CreateIndexResponse createIndexResponse = getAdminClient() 


.prepareCreate (indexName.toLowerCase ()) 
.setSettings (settings) 


„execute () .actionGet(); 


boolean isIndexCreated = createIndexResponse.isAcknowledged(); 


if (isIndexCreated) ( 


System.out.println("X5|" + indexName + "创建 成 功 ") ; 
} else { 
System.out .println(" 索 引 " + indexName + "创建 失败 ") ; 
return isIndexCreated; 
} 


再 封装 一 个 设置 映射 的 方法 : 


public static boolean setMapping (String indexName, String typeName, String 


mapping) ( 
getAdminClient ().preparePutMapping (indexName) 
.setType (typeName) 
.setSource (mapping, XContentType.JSON) 
:get () 7 
return false; 


} 
在 数据 库 层面 ， 封 装 DAO 导入 数据 : 


public class Dao { 
Private Connection conn; 


public void getConnection(){ 
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La 
Class.forName ("com.mysql.cj.jdbc.Driver"); 
String user-"root"; 
String passwd-"123456"; 
String url-"jdbc:mysql://localhost:3306/News"; 


conn- DriverManager.getConnection (url,user,passwd); 
if (conn!=null) { 
System.out.println ("mysql 连接 成 功 !") ; 
Jelse( 
System.out.println ("mysql 连接 失败 !") ; 
) 
) catch (ClassNotFoundException e) ( 
e.printStackTrace(); 
) catch (SQLException e) ( 


e.printStackTrace(); 


) 


public void mysqlToEs()( 
String sql-"SELECT * FROM news"; 
TransportClient client= EsUtils.getSingleClient(); 
try í 
PreparedStatement pstm=conn.prepareStatement (sql) ; 
ResultSet resultSet=pstm.executeQuery (); 
Map<String,Object> map=new HashMap<String, Object>(); 
while (resultSet.next()) { 
int nid=resultSet.getInt (1); 
map.put ("id",nid) ; 
map.put ("title", resultSet.getString(2)); 
map.put ("key word", resultSet.getString(3)); 
map.put ("content",resultSet.getString(4)); 
map.put ("url", resultSet.getString(5)); 
map.put ("reply", resultSet.getInt (6) ); 
map.put ("source",resultSet.getString(7)); 
String postdatetime=resultSet.getTimestamp (8) 
-toString(); 
map.put ("postdate",postdatetime.substring(0, 
postdatetime.length()-2)); 
System.out.println (map); 
client.prepareIndex ("spnews", "news", String.valueOf (nid)) 
.setSource (map) 
„execute () 
-actionGet (); 
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} catch (SQLException e) { 


e.printStackTrace(); 


) 
执行 数据 导入 的 主 函数 : 


public static void main(String[] args) { 
//1 .创建 索引 
EsUtils.createIndex("spnews", 3, 0); 
//2.& 8 Mapping 
try { 

XContentBuilder builder - jsonBuilder() 
-StartObject ().startObject ("properties") 
-StartObject ("id") 

-field("type", "long") 

.endObject () 

.startObject ("title") 

.field("type", "text") 
-field("analyzer", "ik max word") 
-field("search analyzer", "ik max word") 
.endObject () 

-startObject ("key word") 

.field("type", "text") 
.field("analyzer", "ik max word") 
.field("search analyzer", "ik max word") 
.endObject () 

-StartObject ("content") 

-field("type", "text") 
.field("analyzer", "ik max word") 
-field("search analyzer", "ik max word") 
.endObject () 

.StartObject ("url") 

.field("type", "keyword") 

.endObject () 

StartObject ("reply") 

.field("type", "long") 

.endObject () 

-StartObject ("source") 

-field("type", "keyword") 

.endObject () 

-StartObject ("postdate") 

-field("type", "date") 
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.field("format", "yyyy-MM-dd HH:mm:ss") 
.endObject () 
.endObject () 
.endObject() 7 
EsUtils.setMapping("spnews", "news", builder.string()); 
) catch (IOException e) ( 


e.printStackTrace(); 


//3. 读 取 MySQL 
Dao dao = new Dao() 
dao.getConnection(); 


dao.mysqlToEs(); 


10.4 查询 界面 


这 一 节 来 实现 一 个 用 户 查询 的 搜索 框 ， 首 先 创 建 一 个 jsp 页 面 作为 首页 ， 一 般 命名 为 inde 
xjsp. fE index.jsp 中 加 入 一 个 form 表单 ， 加 入 一 个 输入 框 和 一 个 提交 按钮 。 用 户 输 入 搜索 关 
键 词 并 单 击 搜索 按钮 时 ， 要 把 用 户 输入 的 内 容 传 给 后 台 的 servlet， 因 此 设置 form 表单 的 actio 
n 的 取 值 为 后 台 的 servlet 名 称 。index.jsp 中 的 核心 代码 如 代码 清单 10-9 所 示 。 


代码 清单 10-9 


<%@ page contentType="text/html;charset=UTF-8" language="java" %> 
<html> 
<head> 

<title> 新 闻 搜索 </title> 

<link type="text/css" rel="stylesheet" href="css/index.css"> 
</head> 
<body> 
<div class="box"> 

<h1>Elasticsearch 新 闻 搜索 </h1> 

<div class="searchbox"> 


<form action="/SearchNews" method="get"> 
<input type="text" name="query"> 
<input type="submit" value=" 搜 索 一 下 "> 
</form> 
</div> 
</div> 
</body> 
</html> 
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为 了 界面 美观 ， 增 加 样式 表 文 件 index.css， 内 容 如 下 : 


body{ 


} 


margin: 0 auto; 


«box { 


) 


border: 1px solid #cccccc; 
width: 600px; 
height: 400px; 


margin: 100px auto; 


.box hit 


) 


text-align: center; 
color: #008040; 


margin: 50px auto; 


-Searchbox( 


} 


height: 30px; 
border: 1px solid #008040; 
width: 80%; 


margin:50px auto ; 


.Searchbox input [type="text"] { 


} 


height: 30px; 
width: 85%; 
outline: none; 
border: 0; 
font-size: 18px; 


«searchbox input [type="submit"] { 


) 


height: 30px; 


width:14$ ; 
float: right; 
border: 0; 


outline: none; 
background-color: #008040; 
color: #ffffff; 


在 Tomcat 中 运行 ， 新 闻 搜 索 框 效果 如 图 10-3 所 示 。 
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Elasticsearch 新 闻 搜索 


10-3 ”新 闻 搜 索 查询 界面 


10.5 “搜索 新 闻 


用 户 输 入 的 查询 语句 需要 提交 给 后 台 的 servlet 接收 ，servlet 采用 注解 的 方式 配置 ， 使 用 
multiMatchQuery 对 title 和 content 字段 进行 搜索 ， 同 时 对 title 和 content 字段 进行 高 亮 处 理 。 

大 型 搜索 引擎 一 次 会 检索 到 上 百 万 条 记录 ， 根 据 用 户 习惯 ， 一 般 只 有 前 几 页 的 内 容 会 被 
用 户 点 击 查看 ,不 可 避免 的 需要 使 用 到 分 页 的 功能 。 分 页 就 是 对 搜索 结果 做 分 批 处 理 ， 用 户 如 
果 在 其 中 没有 找到 想 要 的 内 容 , 可 以 通过 制定 页 码 或 翻 页 的 方式 转换 可 见 内 容 , 直到 找到 需要 
的 内 容 为 止 。 这 里 设置 每 页 返回 5 条 新 闻 数 据 ， 最 后 把 搜索 到 的 数据 放 到 request 作用 域 中 并 


@WebServlet (name = "/SearchNews", urlPatterns = "/SearchNews") 
public class SearchServlet extends HttpServlet { 
@Override 
protected void doGet (HttpServletRequest req, HttpServletResponse resp) 
throws ServletException, IOException { 
req.setCharacterEncoding ("UTF-8") ; 
String query = req.getParameter ("query") ; 
System.out.println (query); 
String pageNumStr-req.getParameter ("pageNum"); 
int pageNum-1; 
if (pageNumStr!-null&&Integer.parseInt (pageNumStr) >1) { 
pageNum-Integer.parseInt (pageNumStr) ; 
} 
searchSpnews (query, pageNum, req) ; 
req.setAttribute ("queryBack", query); 
req.getRequestDispatcher ("result.jsp").forward(req, resp); 
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H 


private void searchSpnews (String query, int pageNum,HttpServletRequest 
req) { 
long start = System.currentTimeMillis(); 
TransportClient client - EsUtils.getSingleClient(); 
MultiMatchQueryBuilder multiMatchQuery - QueryBuilders 
.multiMatchQuery (query, "title", "content"); 
HighlightBuilder highlightBuilder - new HighlightBuilder() 
.preTags ("<span style=\"color:red\">") 
.postTags ("</span>") 
-field("title") 


.field ("content"); 


SearchResponse searchResponse = client.prepareSearch ("spnews") 
.SetTypes ("news") 
.SetQuery (multiMatchQuery) 
.highlighter (highlightBuilder) 
.setFrom((pageNum-1) *5) 
.setSize(5) 
.execute() 
.actionGet(); 
SearchHits hits = searchResponse.getHits(); 
ArrayList<Map<String, Object?» newslist = new ArrayList<Map<String, 
Object>>(); 
for (SearchHit hit : hits) { 
Map<String, Object» news = hit.getSourceAsMap () ; 
HighlightField hTitle = hit.getHighlightFields().get ("title"); 
if (hTitle != null) { 
Text[] fragments = hTitle.fragments(); 
String hTitleStr = ""; 
for (Text text : fragments) { 
hTitleStr += text; 
} 
news.put("title", hTitleStr) ; 
} 


HighlightField hContent = hit.getHighlightFields ().get ("content"); 
if (hContent != null) { 

Text[] fragments = hContent.fragments(); 

String hContentStr = ""; 

for (Text text : fragments) { 

hContentStr += text; 
} 
news .put ("content", hContentStr) ; 
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} 
news list.add (news); 
} 
long end = System.currentTimeMillis(); 
req.setAttribute("newslist", newslist); 
req.setAttribute("totalHits", hits.getTotalHits() + ""); 
req.setAttribute("totalTime", (end - start) + ""); 
H 
GOverride 
protected void doPost(HttpServletRequest req, HttpServletResponse resp) 
throws ServletException, IOException { 


doGet(req, resp); 


10.0 ”结果 展示 


编辑 resultjsp， 将 查询 结果 展示 到 jsp 页 面 中 。 通 过 request 对 象 的 getAttribute() 方 法 获取 
查询 结果 ， 遍 历 集合 ， 把 新 闻 内 容 输 出 到 页 面 中 。 代 码 如 下 : 


<%@ page impor 


"java.util.ArrayList" %> 
<%@ page import-"java.util.Map" %> 


<%@ page import-"java.util.Iterator" %> 
<%@ page import="com.sun.org.apache.bcel.internal.generic.IF_ACMPEQ" %> 
<%@ page contentType-"text/html;charset-UTF-8" language-"java" %> 
<% 
String queryBack = (String) request.getAttribute ("queryBack") ; 
ArrayList<Map<String, Object>> newslist = (ArrayList<Map<String, Object>>) 
request.getAttribute ("newslist"); 
String totalHits = (String) request.getAttribute ("totalHits"); 
String totalTime = (String) request.getAttribute ("totalTime"); 
int pages = Integer.parseInt(totalHits) / 10 + 1; 
pages = pages > 10 ? 10 : pages; 
$> 
<html> 
<head> 
<title> 搜 索 结果 </title> 
<link type="text/css" rel="stylesheet" href="css/result.css"> 
</head> 
<body> 
<div class="result search"> 
<div class="logo"> <h2><a href="index.jsp"> 新 闻 搜索 </a></h2></div> 


第 10 章 新 闻 搜索 项 目 实战 299 


<div class="searchbox"> 
<form action="/SearchNews" method="get"> 
<input type="text" name="query" value="<%=queryBack%>"> 
<input type="submit" value=" 搜 索 一 下 "> 
</form> 
</div> 
</div> 
<h5 class="result info"> 共 搜索 到 <span><%=totalHits%></span> 条 结果 , 耗 时 <span> 
<%=Double.parseDouble (totalTime) / 1000.0 %></span> 秒 


</h5> 
<div class="newslist"> 
<% 
if (newslist.size() > 0) { 
Iterator<Map<String, Object>> iter = newslist.iterator(); 
while (iter.hasNext()) { 
Map<String, Object» news = iter.next(); 
String content - news.get("content").toString(); 
content - content.length() » 200 ? content.substring(0, 200) 
content; 
%> 


<div class="news"> 
<h4><a href="<%=news.get ("url") $>"><%=news.get ("title") %> </a></h4> 
<p><%=content%> </p> 

</div> 

<% 


$> 
</div> 
<div class="page"> 
<ul> 
<% for (int i = 1; i <= pages; i++) { %> 
<li><a href-"/SearchNews?query-«$-queryBack$»&pageNum-«$-i$»"»«$-i$» 
</a></1i> 
<% ) $5 
</ul> 
</div> 
<div class="info"> 
<p> 新 闻 搜 索 项 目 实战 Powered By «b» Elasticsearch</b></p> 
<p>@2017 All right reserved</p> 
</div> 
</body> 
</html> 
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搜索 结果 页 的 样式 表 文 件 result.css 的 内 容 如 下 : 
body { 


margin: 0; 
padding: 0; 
} 


.result search { 
width: 100$; 
height: 60px; 
background-color: #cccccc; 


) 


.logo ( 
float: left; 
) 


.logo h2 ( 
color: #008040; 
padding-left: 20px; 

) 

.logo h2 a:link, 

.logo h2 a:visited{ 
text-decoration: none; 
color: #008040; 

} 

.Searchbox { 

float: left; 

border: 1px solid #008040; 
height: 30px; 

width: 500px; 

margin-top: 15px; 
margin-left: 30px; 

} 

.Searchbox input[type-"text"] { 

width: 85%; 
height: 30px; 
border: 0; 
outline: none; 


font-size: 18px; 


} 

.searchbox input[type-"submit"] { 
width: 15$; 
border: 0; 


outline: none; 
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height: 30px; 
background-color: #008040; 
color: Wffffff; 
float: right; 

} 


.result info { 
margin-left: 30px; 
H 


.result info span ( 
color: #f££0000; 
) 


.newslist ( 
width: 700px; 
) 


.newslist h4 ( 
padding: 0; 
margin: 0; 
margin-left: 20px; 

) 


.newslist h4 a:link, .newslist h4 a:visited ( 
text-decoration: none; 

) 

.newslist h4 a:hover { 
text-decoration: underline; 


} 


.newslist p ( 
margin-left: 30px; 
line-height: 1.5; 
font-size: 13px; 

) 


«page { 
margin-left: 50px; 
height: 30px; 

$ 


.page ul li { 
list-style: none; 
float: left; 
width: 50px; 
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.page ul li a:link, .page ul li a:visited { 
text-decoration: none; 


} 


.info { 
width: 800px; 


} 

.info p { 
text-align: center; 
font-size: 12px; 
color: #808080; 

} 


最 后 , 在 Tomcat 中 运行 项 目 , 输入 关键 词 “ 奥 运 会 ”进行 测试 , 搜索 结果 如 图 10-4 所 示 。 
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国 奥 奥运 会 预选 赛 战绩 及 奥运 会 正 赛 战 绩 


新 浪 体 育 讯 “2015 年 ，1993 年 龄 段 国 身 将 冲击 2016 年 里 约 奥 运 会 。 历 史上， 建国 后 国 和 曾 两 次 出 征 正 者 ， 难 求 一 
B, MPO AOR RE HG, i 


许 昕 :亚运 就 是 奥运 会 ! 感 谢 马龙 不 怕 张 继 科 不 高 兴 


新 浪 体 育 讯 “对 我 米 说 ， 亚 运 会 就 是 页 运 会 ， 如 果 这 场 比赛 答 了 ， 也 洗 里 的 也 就 商 我 越 来 越 远 ! “以 4.2 战 性 队友 
炙 缴 东 ， 首 夺 亚 运 会 男 单 冠 军 后 ， 中 国名 将 许 和 所 便 地 庆祝 ， 哮 一 刻 他 思 续 万 千 ! ”当地 时 间 10 月 4 日 下 午 ， 仁 川 亚 < 


BOE! FIFA 开 启 第 四 换 人 规则 奥运 会 + 世 俱 杯 试行 


国际 足球 协会 理事 会 (IFAB) 在 会 议 中 通过 决定 ， 今 年 将 在 一 些 比 赛 中 试用 加 时 赛 采 取 第 四 换 人 的 规则 。 
这 项 新 规则 将 在 今年 的 里 约 奥运 会 、 巴 布 新 几内亚 女足 U20 世 界 杯 和 在 日 本 举行 的 世 俱 杯 上 试用 。 (FRN) 


金 汕 : 日 本 发 鸭 东 京 奥 运 会 金牌 超过 中 国 可 能 网 ? 


在 东京 获得 2020 年 夏季 奥运 会 主办 权时 ， 日 本 政府 很 忌 在 内 立会 议 上 确定 了 包括 奖牌 目标 、 安 保 指 施 在 内 的 大 会 
筹备 基本 方针 。 该 方针 将 2020 年 东京 奥运 会 定位 为 * 重 抢 日 本 失去 的 自 售 ， 向 世界 展示 日 本 成 熟 社会 先进 的 管理 机 制 的 
契机 "。 这 并 没有 引起 中 国 方面 多 大 警 情 ，2008 年 北京 


“外 援 " 杜 凯 染 ; 不 想 家 打 乒 超 比 奥运 会 还 紧张 


新 浪 体育 讯 “能 在 这 么 高 水 平 的 地 方 比赛 ， 比 打 奥 运 会 还 紧张 "10 月 14 日 晚 ， 新 赛季 乒 超 联赛 在 首钢 篮球 中 
心 提前 打响 。 主场 作战 的 北京 首钢 队 以 3 1 战胜 深圳 大 学 队 ， 其 中 丁 宁 的 新 队友 来自 短 港 的 社 基 此 的 女 双 袍 最 中 ， 先 
声 半 人 的 杜 向 芭 ! 盛 凡 丹 以 1-2 被 孙 师 菠 / 钱 天 一 逆转 取胜 。- 感 觉 有 点 可 惜 ， 因 为 还 是 有 机 会 的 ， 但 我 俩 也 是 第 一 次 配 , 
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107 ”本章 小 结 


本 章 通 过 实现 对 MySQL 中 的 表 进 行 全 文 检 索 这 一 需求 ， 贯 穿 了 MySQL. JDBC. 
Elasticsearch Java API 以 及 Java Web 的 相关 知识 ， 通 过 实际 项 目 加 深 读者 对 Elasticsearch 的 理 
解 和 运用 。 


Elasticsearch For Hadoop 


本 章 学 习 要 点 : 

*k Hadoop 基本 配置 * 从 HDFS 到 Elasticsearch 

灾 ES-Hadoop 安装 %* 从 Elasticsearch 到 HDFS 

众所周知 ，Hadoop 在 离线 批 处 理 程序 上 有 着 天 然 的 优势 ， 但 是 也 存在 实时 性 差 的 致命 缺 


陷 。Elasti 
库 ， 简 称 


批 处 理 优势 和 Elasticsearch 强大 的 全 文 检索 引擎 结合 起 来 。ES-Hadoop 开辟 了 更 加 广 


ES-Hadoop， 在 Hadoop 和 Elasticsearch 之 间 起 到 桥梁 的 作用 ， 完 美 地 把 H 


csearch for Apache Hadoop 是 一 个 用 于 Elasticsearch 和 Hadoop 进行 交互 的 开源 独立 


adoop 的 
阔 的 应 用 


空间 ， 通 过 ES-Hadoop 可 以 索引 Hadoop 中 的 数据 到 Elasticsearch， 充 分 利用 其 查询 和 聚合 分 


析 功 能 ， 


也 可 以 在 Kibana 中 做 进一步 的 可 视 化 分 析 ， 同 时 也 可 以 把 Elasticsearch 中 


9 数据 放 


到 Hadoop 生态 系统 中 做 运算 ，ES-Hadoop 支持 Spark、Streaming、SparkSQL， 除 此 之 外 ， 不 


论 你 是 使 用 Hive、Pig、Storm、Cascading 还 是 运行 单独 的 Map/Reduce，ES-Hadoop 


提供 的 接 


口 都 支持 从 Elasticsearch 中 进行 索引 和 查询 操作 。 图 11-1 很 好 地 说 明了 ES-Hadoop 和 大 数据 
生态 系统 之 间 的 关系 。 


sms cx dH 
@ \ 
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* 
am N \ 
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Elasticsearch Kibana 
^ 


Easticsearch with HDFS 


C aco) HDFS &— 


图 11-1 ES-Hadoop 与 大 数据 的 关系 
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11.1 Hadoop 基础 


为 了 方便 不 熟悉 Hadoop 的 读者 ， 本 小 节 先 介绍 一 些 Hadoop 的 基础 知识 ， 包 括 如 何在 Linux 
机 器 上 安装 配置 Hadoop 伪 分 布 式 集群 、HDFS 常用 命令 。 


11.1.1 SSH 配置 


Hadoop 使 用 SSH 进行 通信 ， 设 置 密码 为 空 ， 免 去 每 次 通信 都 需要 密码 ，SSH 免 密码 登录 
配置 的 步骤 如 下 : 
ED) 打开 temminal， 进 入 根 目录 ， 运 行 命令 : 


cd 

CXX02 如 果 机 器 之 前 没有 SSH 相关 配置 ， 没 有 .ssh 文件 夹 ， 显 示 隐藏 文件 命令 : 
ls -a 

EN 生成 密 钥 ， 执 行 命令 如 下 : 

ssh-keygen -t rsa -P "" 


执行 过 程 如 图 11-2 所 示 。 


Bee:~ bee$ cd 

Bee:- bee$ ssh-keygen -t rsa -P "" 

Generating public/private rsa key pair. 

Enter file in which to save the key (/Users/bee/.ssh/id_rsa): 
Created directory '/Users/bee/.ssh' . 

Your identification has been saved in /Users/bee/.ssh/id rsa. 
Your public key has been saved in /Users/bee/.ssh/id rsa.pub. 
The key fingerprint is: 
99:99:2e:fa:29:00:94:bd:94:5f:65:db:50:4d:74:41 bee@Bee. local 
The key's randomart image is: 

4--[ RSA 2048]----+ 

.0.E.1 

o. | 
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CXX04 执行 完成 以 后 会 生成 .ssh 文件 夹 ， 在 .ssh 文件 夹 中 会 生成 一 对 密 钥 ，id_rsa 是 生成 的 私 
钥 文件 ，id_rsa.pub 是 生成 的 公 钥 文件 。 把 公 钥 文件 复制 到 本 机 的 authorized keys 文件 中 ， 执 行 命令 : 


cat id rsa.pub >> authorized keys 


E 测试 ssh 登录， 执行 命令 : 
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ssh localhost 


第 一 次 登录 会 把 本 机 ip 加 入 一 个 known_hosts 文件 中 ，known_hosts 文保 存 了 对 所 有 用 户 都 可 信 
赖 的 远程 主机 的 公 钥 ， 如 图 11-3 所 示 ， 再 次 登录 就 无 须 密码 验证 了 。 


Bee:~ bee$ cd .ssh/ 
Bee: .ssh bees ls 

id rsa id_rsa.pub 

Bee: .ssh bee$ cat id rsa.pub >> authorized keys 

Bee: ssh bee$ ls 

authorized keys id rsa dd rsc.pub 

Bee:.ssh bee$ ssh localhost 

The authenticity of host ‘localhost (127.0.0.1)' can't be established 
RSA key fingerprint is Se:4e:fe:e7:44:48:f6:4:bb:01:01:0f:37:fc:e4:fe 
Are you sure you want to continue connecting Cyes/no)? yes 

Warning: Permanently added ‘localhost’ (RSA) to the list of known hosts. 
Last login: Mon Aug 21 17:43:50 2017 from localhost 

Bee:~ bee$ ssh localhost 

Last login: Mon Aug 21 17:45:06 2017 from localhost 

Bee:- beeS 


图 11-3 fU 
11.1.2 Hadoop 下 载 


Hadoop 下 载 地 址 : http://apache.org/dis/hadoop/common, X$ 2.7.3 版 本 ， 选 择 下 载 
hadoop-2.7.3.tar.gz， 下 载 后 解压 缩 到 指定 目录 ， 解 压 命令 如 下 : 


sudo tar -zxvf hadoop-2.7.3.tar.gz 
11.1.3 Hadoop 单机 模式 


Hadoop 有 3 种 安装 模式 : 单机 模式 、 伪 分 布 式 模式 、 完 全 分 布 式 模 式 。 解 压 Haoop 安装 
文件 之 后 即 可 运行 单机 模式 ， 运 行 wordcount 测试 是 否 安装 成 功 ， 步 骤 如 下 : 


€D) 在 hadoop-2.7.3 目录 下 新 建 input VHX: 


sudo mkdir input 
C02 在 input 文件 夹 下 新 增 2 个 文本 文件 并 写 入 单词 用 于 测试 : 


echo 'hello world' > filel.txt 
echo 'hello hadoop' > file2.txt 


E2103 运行 wordcount 例子 : 


sudo ./bin/hadoop jar ./share/hadoop/mapreduce/hadoop- 


mapreduce-examples-2.7.3.jar wordcount input/ output 
CET 查看 运行 结果 : 

cat output/part-r-00000 

统计 结果 : 


hadoop 1 
hello 2 
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world 1 


11.1.4 Hadoop 伪 分 布 式 模式 
Hadoop 伪 分 布 式 模式 主要 涉及 以 下 配置 信息 : 


修改 HADOOP_OPTS。 

修改 core-site.xml 配置 HDFS 地 址 和 端口 。 

修改 mapred-site.xml 文件 配置 JobTracker 的 地 址 和 端口 。 
修改 hdfs-site.xml 文件 配置 HDFS 的 副本 数 。 


hadoop-env.sh. core-site.xml, mapred-site.xml, hdfs-site.xml 都 位 于 hadoop-2.7.3/etc/hadoop 


目录 下 。 
Fo!) 编辑 hadoop-env.sh， 找 到 HADOOP_OPTS 并 将 其 注释 : 


#export HADOOP OPTS="$HADOOP OPTS -Djava.net.preferIPv4Stack-true" 
修改 为 : 


export HADOOP_OPTS="$HADOOP_OPTS -Djava.net.preferIPv4Stack-true 


-Djava.security.krb5.realm= -Djava.security.krb5.kdc=" 
CX02 编辑 core-site.xml， 修 改 为 如 下 配置 : 


<configuration> 
<property> 
<name>hadoop.tmp.dir</name> 
<value>/usr/local/Cellar/hadoop-2.7.3/hdfs/tmp</value> 
<description>A base for other temporary directories</description> 
</property> 
<property> 
<name>fs.default .name</name> 
<value>hdfs://localhost : 9000</value> 
</property> 
</configuration> 


其 中 /usr/local/Cellar/hadoop-2.7.3/hdfs/tmp 可 以 自 定义 , fs.default.name 保存 了 NameNode 的 位 置 ， 
HDFS 和 MapReduce 组 件 都 需要 用 到 它 。 
€o 编辑 mapred-site xmltemplate， 增 加 配置 信息 如 下 : 


<configuration> 
<property> 
<name>mapred.job.tracker</name> 
<value>localhost : 9010</value> 
</property> 
</configuration> 
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变量 mapred job.tracker 保存 了 JobTracker 的 位 置 , 因为 只 有 MapReduce 组 件 需要 知道 这 个 位 置 ， 
所 以 它 出 现在 mapred-site.xml 文件 中 。 
€o 编辑 hdf-site xml: 


<configuration> 


<property> 
<name>dfs.replication</name> 
<value>1</value> 

</property> 


</configuration> 


变量 dfs.replication 指定 了 每 个 HDFS 数据 库 的 复制 次 数 。 通常 为 3, 由 于 我 们 只 有 一 全 主机 和 一 
个 伪 分 布 式 的 DataNode， 因 此 将 此 值 修改 为 1。 


通过 上 面 的 配置 ，Hadoop 伪 分 布 式 配置 就 已 经 完成 了 ， 接 下 来 启动 Hadoop， 首 先 格式 化 
namenode， 执 行 命令 : 


./bin/hadoop namenode -format 


格式 化 过 程 如 图 11-4 所 示 。 


Bee:hadoop-2.7.3 bee$ ./bin/hadoop namenode -format 
DEPRECATED: Use of this script to execute hdfs command is deprecated. 
Instead use the hdfs command for it. 


17/08/21 22:36:26 INFO namenode.NameNode: STARTUP_MSG: 
j—— M 

STARTUP_MSG: Starting NameNode 

STARTUP MSG: host = 115.1.168.192.in-addr.arpa/203.208.39.104 

STARTUP MSG: args = [-format] 

STARTUP_MSG: version = 2.7.3 

STARTUP_MSG: classpath = /usr/local/Cellar/hadoop-2.7.3/etc/hadoop: /usr/local/ 
Cellar/hadoop-2 .7.3/share/hadoop/common/1lib/activation-1.1.jar:/usr/local/Cellar 
/hadoop-2.7 .3/share/hadoop/common/1ib/apacheds -i18n-2 .0.0-M15. jar:/usr/local/Cel 
lar/hadoop-2.7.3/share/hadoop/comnon/lib/apacheds -kerberos-codec-2 .0.0-M15. jar:/ 
usr/1local/Cellar/hadoop-2.7.3/share/hadoop/common/lib/api -asni-api -1.0.0-M20. jar 
:/usr/local/Cellar/hadoop-2.7.3/share/hadoop/common/lib/api -util-1.0.0-M20. jar:/ 
usr/local/Cellar/hadoop-2.7.3/share/hadoop/common/lib/asm-3.2. jar:/usr/local/Cel 
lar/hadoop-2 .7.3/share/hadoop/common/lib/avro-1.7.4. jar: /usr/local/Cellar/hadoop 
-2.7.3/share/hadoop/common/lib/commons-beanutils-1.7.0.jar:/usr/local/Cellar/had 
o0p-2.7 .3/share/hadoop/common/1lib/commons -beanutils-core-1.8.0. jar:/usr/local/Ce 


图 114 格式 化 namenode 
执行 完成 以 后 ， 启 动 Hadoop， 命 令 如 下 : 
./sbin/start-all.sh 


执行 start-all.sh 脚本 和 先 执行 start-dfs.sh 再 执行 start-yarn.sh 是 一 样 的 ,运行 结果 如 图 11-5 
所 示 。 

启动 成 功 之 后 , 使 用 jps 命令 查看 JVM 进程 , 正常 情况 下 如 果 看 到 NameNode、DataNode、 
ResourceManager、NodeManager 和 SecondaryNameNode， 就 说 明 配 置 成 功 。 
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Bee:hadoop-2.7.3 bee$ ./sbin/start-all.sh 

This script is Deprecated. Instead use start-dfs.sh and start-yarn.sh 

17/08/21 23:56:14 WARN util.NativeCodeloader: Unable to Load native-hadoop library for your platform 
. using builtin-java classes where applicable 

Starting namenodes on [localhost] 

localhost: starting namenode, logging to /usr/local/Cellar/hadoop-2.7 .3/109s/hadoop-bee-namenode-Bee . 
local.out 

localhost: starting datanode, logging to /usr/local/Cellar/hadoop-2.7 .3/Logs/hadoop-bee-datanode-Bee 
local.out 

Starting secondary namenodes [0.0.0.0] 

0.0.0.0: starting secondarynamenode, logging to /usr/local/Cellar/hadoop-2.7 .3/1ogs/hadoop-bee-second 
arynamenode-Bee. Local .out 

17/08/21 23:56:30 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform 
. using builtin-java classes where applicable 

starting yarn daemons 

starting resourcemanager, logging to /usr/local/Cellar/hadoop-2.7.3/logs/yarn-bee-resourcemanager-Bee 
.local.out 

localhost: starting nodemanager, logging to /usr/local/Cellar/hadoop-2.7. 3/logs/yarn-bee-nodemanager- 
Bee, Local ,out 

Bee :hadoop-2.7.3 beeS jps 

5808 SecondaryNameNode 

6052 NodeManager 

5576 NameNode 

6088 Jps 

5946 ResourceManager 

5676 DataNode 


11-5 fa Hadoop 


最 后 ， 访 问 HDFS 的 50070 端口 ， 可 以 看 到 如 图 11-6 所 示 的 界面 。 


Hadoop overview 


Overview 'iocalhost:9000' (active) 


Stortec: Mon Aug 2! 22:52:05 CST 2017 
Vason: T €———— M 
Comores 20160618101 :412 by root fom branch 7.3 
Cuero cp Mol S352 oM 496 94Ab clisaopcbcgi 
Bock oot t BP-1200046452.192163.1.1151503326103765 
Summary 
Security is off. 


Satemode is ott. 
| fles ond directories, 0 blocks = 1 totai filesystem objectis! 
Heap Memory used 62.8? MB of 182.5 M8 Heap Memory. Max Heap Memory is 889 MB. 


图 11-6 访问 HDFS 的 WEB 端口 


为 了 使 用 方便 ， 把 Hadoop 的 执行 脚本 加 入 系统 环境 变量 中 ， 后 期 就 不 需要 每 次 者 
Hadoop 安装 目录 执行 Hadoop 相关 命令 了 。 编 辑 /etc/profile， 加 入 如 下 配置 : 


export HADOOP HOME=/usr/local/Cellar/hadoop-2.7.3 
export PATH=$PATH:$HADOOP HOME/bin:$HADOOP HOME/sbin 


其 中 HADOOP. HOME 是 Hadoop 安装 包 所 在 的 位 置 ， 执 行 source 命令 使 配置 生效 : 


source /etc/profile 


切换 到 
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11.1.5 HDFS 常用 操作 
在 浏览 器 查看 HDFS 文件 ， 如 图 11-7 所 示 。 


Hadoop Ovevew Datonodes snapshot  sSlorupProgress lilies 


Browse Directory 


/ Gol 


Permission Owner Group Sie — LostModifec Replication Block Sze Nome 
dwar mtx bee supergroup OB 2017/8/22 +% 12:10:58 0 08 
drwy bee supergroup OB 2017/8/22 上 午 12101 0 o8 werk 


Hadoop. 2016. 


11-7 在 浏览 器 查看 HDFS 文件 
查看 HDFS 根 目录 下 的 文件 : 
hadoop fs -ls / 
在 HDFS 之 上 新 建 一 个 文件 夹 : 


hadoop fs -mkdir /work 


递归 创建 多 级 文件 夹 : 

hadoop fs -mkdir -p /a/b/c 
上 传 本 地 文件 到 HDFS: 

hadoop fs -put a.txt /work 
检查 文件 是 否 存 在 : 


hadoop fs -test -e /work/a.txt 
echo $? (打印 结果 为 0 说 明文 件 存在 ， 为 1 说 明文 件 不 存在 ) 


查看 HDFS 中 的 文件 内 容 : 

hadoop fs -cat /work/a.txt 
删除 HDFS 上 的 文件 : 

hadoop fs -rm /work/a.txt 
删除 HDFS 上 的 文件 夹 : 

hadoop fs -rmr /work/a 
追加 到 文件 末尾 : 


hadoop fs -appendToFile local.txt /work/a.txt (local.txt 中 的 内 容 追 加 到 a.txt H) 
hdfs dfsadmin -report 
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11.2 ES-Hadoop 安装 


ES-Hadoop 有 直接 下 载 和 使 用 Maven 管理 两 种 方式 , Elasticsearch 5.0 之 后 Elastic 公司 对 
所 有 的 软件 做 了 统一 版 本 号 处 理 ， 因 此 ES-Hadoop 的 版 本 也 要 和 Elasticsearch 版 本 一 致 。 
ES-Hadoop 5.4 版 本 的 运行 同样 需要 JDK 版 本 不 能 低 于 1.8, ES-Hadoop 不 支持 Elasticsearch 1.0 
之 前 的 版 本 。 


11.2.1 压缩 包 下 载 


ES-Hadoop 下 载 地 址 : https://www.elastic.co/downloads/hadoop， 下 载 并 解压 后 ， 把 dist H 
录 下 的 jar 包 导入 hadoop 即 可 。 

为 了 方便 程序 的 运行 ， 把 ES-HADOOP 的 jar 包 导 入 环境 变量 ， 编 辑 /etc/profile， 添 加 以 
FAA: 

export EsHadoop_HOME=/usr/local/Cellar/elasticsearch-hadoop-5. 4.0 

export CLASSPATH=$CLASSPATH:$EsHadoop_HOME/dist/* 


最 后 使 profile 文件 生效 : 


source /etc/profile 


11.2.2 Maven 依赖 
如 果 使 用 Maven 管理 jar 包 ， 就 可 以 在 pom.xml 文件 中 加 入 以 下 依赖 : 


<dependency> 


t 


<groupId>org.elasticsearch</groupId> 
<artifactId>elasticsearch-hadoop</artifactId> 
<version>5.4.0</version> 


</dependency> 


上 面 的 依赖 包含 了 MapReduce, Pig. Hive. Spark 等 完整 的 依赖 ， 如 果 只 想 单 独 使 用 某 一 
个 功能 ， 可 以 细 化 后 分 别 加 入 。 
支持 Map/Reduce 的 最 小 依赖 : 


<dependency> 
XgroupId»org.elasticsearch«/groupId» 
<artifactId>elasticsearch-hadoop-mr</artifactId> 
<version>5.4.0</version> 


</dependency> 
支持 Apache Hive 的 最 小 依赖 : 


<dependency> 
<groupId>org.elasticsearch</groupId> 
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<artifactId>elasticsearch-hadoop-hive</artifactId> 
<version>5.4.0</version> 


</dependency> 
支持 Apache Pig 的 最 小 依赖 : 


<dependency> 
XgroupId»org.elasticsearch«/groupId» 
<artifactId>elasticsearch-hadoop-pig</artifactId> 
<version>5.4.0</version> 


</dependency> 
支持 Apache Spark 的 最 小 依赖 : 


<dependency> 
XgroupId»org.elasticsearch«/groupId» 
<artifactId>elasticsearch-spark-20_2.10</artifactId> 
<version>5.4.0</version> 


</dependency> 
支持 Storm 的 最 小 依赖 : 


<dependency> 
<groupId>org.elasticsearch</groupId> 
<artifactId>elasticsearch-storm</artifactId> 
«version»5.4.0«/version» 


</dependency> 


11.3. 从 HDFS 到 Elasticsearch 


这 一 节 介 绍 使 用 MapReduce 把 HDFS 上 的 数据 批量 导入 Elasticsearch 的 方法 和 步骤 。 由 
于 MapReduce 是 按 行 读 取 数 据 的 ， 因 此 HDFS 上 的 数据 每 一 行 都 要 是 json 格式 的 字符 串 。 


11.3.1 测试 数据 
准备 一 些 测试 数据 , 数据 内 容 为 json 格式 , 每 行 是 一 条 文档 。 把 下 列 内 容 保存 到 blogjson 中 。 


("id":"1","title": "git fist, "posttime":"2016-06-11", "content": "svn 4 git HJ 
最 主要 区 别 . . ."} 

("id":"2","title":"ava 中 泛 型 的 介绍 与 简单 使 用 ", "posttime":"2016-06-12", 

基本 操作 : CRUD ...") 

("id":"3","title":"SQL 基本 操作 ", "posttime":"2016-06-13", "content":"svn 与 
git 的 最 yi 中 

{"id":"4", "title": "Hibernate 框架 基础 ", "posttime": "2016-06-14", "content": 
"Hibernate 框架 基础 . . ."} 


"content 
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id": Uia E iR", š -06-15", : 
{"id":"5", "title": "Shell 基本 知识 ", "posttime":"2016-06-15", "content": "Shell 
是 什么 ..."} 


启动 Hadoop 和 HDFS， 执 行 以 下 命令 上 传 blog.json 到 HDFS: 


hadoop fs -put blog.json /work 


11.3.2 ”编写 程序 


下 面 开始 编写 ES-Hadoop 程序 ， 推 荐 使 用 maven 来 进行 项 目 管理 ， 操 作 步 又 如 下 : 


CX0) 安装 maven。 首 先 确保 计算 机 已 经 正确 安装 安装 maven。 
EE? 生成 工程 框架 。 在 工程 根 目录 处 执行 如 下 命令 : 


mvn archetype:generate -DgroupId=com.tsinghua -DartifactId=eshadoop 

-DarchetypeArtifactId = maven-archetype-quickstart -DinteractiveMode-false 

命令 执行 过 程 如 图 11-8 所 示 ，maven 会 自动 生成 一 个 空 的 Sample 工程 ， 工 程 名 为 emrtoes (和 
指定 的 artifactld 一 致 ), 里 面包 含 一 个 简单 的 pom.xml 和 App 类 (类 的 包 路 径 和 指定 的 groupld 一 致 ) 。 


Bee:elk bee$ mvn -v 

Apache Maven 3.3.9 (bb52d8502b132ec@aSa3f4c09453c07478323dc5; 2015-11-11T00:41:47408:00) 

Maven home: /usr/local/Cellar/apache-maven-3.3.9 

Java version: 1.8.0 121, vendor: Oracle Corporation 

Java home: /Library/Java/JavaVirtualMachines/jdk1.8.0.121. jdk/Contents/Home/ jre 

Default locale: zh CN, platform encoding: UTF-8 

OS name: "mac os x", version: "10.13.3", arch: "x86_64", family: "mac" 

Bee:elk bee$ mvn archetype:generate -DgroupId=com.tsinghua -DartifactId-eshadoop -DarchetypeArtifactId- 
maven-archetype-quickstart -DinteractiveMode-false 

[INFO] Scanning for projects... 

[INFO] 

[INEO] eecseceeemuececuecmnuceunseumesccczececnuuceecseecccuncenesgnduecmcsece 

[INFO] Building Maven Stub Project (No POM) 1 

[INEO] = 

[INFO] 

[INFO] >>> maven-archetype-plugin:3.0.1:generate (default-cli) > generate-sources 6 standalone-pom >>> 
[INFO] 

[INFO] <<< maven-archetype-plugin:3.0.1:generate (default-cli) < generate-sources @ standalone-pom <<< 
[INFO] 


[INFO] --- maven-archetype-plugin:3.0.1:generate (default-cli) @ standalone-pom --- 
[INFO] Generating project in Batch mode 
[INFO] ---------------------------------------------------------------------------- 


[INFO] Using following parameters for creating project from Old (1.x) Archetype: maven-archetype-quicks 
tart:1.0 

[INFO] S33eosesee see os ess eee ees scacee cee sese teli 

[INFO] Parameter: basedir, Value: /Users/bee/Documents/elk 

[INFO] Parameter: package, Value: com.tsinghua 

LINFO] Parameter: groupId, Value: com.tsinghua 

[INFO] Parameter: artifactId, Value: eshadoop 

[INFO] Parameter: packageName, Value: com.tsinghua 

[INFO] Parameter: version, Value: 1.0-SNAPSHOT 

[INFO] project created from Old (1.x) Archetype in dir: /Users/bee/Documents/elk/eshadoop 

[INFO] 2-2-----—-—-2-2-2222elie ll cere ee nee eL ien e cecidi 

LINFO] BUILD SUCCESS 

[INFO] ------------------------------------------------------------------+----- 

[INFO] Total time: 12.078 s 

[INFO] Finished at: 2018-05-03T14:17:13408:00 

[INFO] 
[INFO] 


11-8 命令 创建 maven 工程 
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€X:103 加 入 Hadoop 和 ES-Hadoop 依赖 .使 用 IDEA 打开 这 个 工程 ， 编 辑 pom.xml X. Æ 
dependencies 内 添加 如 下 内 容 : 


<dependency> 
<groupId>org. apache. hadoop</groupId> 
<artifactId>hadoop-mapreduce-client-common</artifactId> 
<version>2.7.3</version> 

</dependency> 

<dependency> 
<groupId>org. apache. hadoop</groupId> 
<artifactId>hadoop-common</artifactId> 
<version>2.7.3</version> 

</dependency> 

<dependency> 
<groupId>org.elasticsearch</groupId> 
<artifactId>elasticsearch-hadoop-mr</artifactId> 
<version>5.4.0</version> 


</dependency> 


Cos 添加 打包 插件 。 由 于 使 用 了 第 三 方 库 ， 需 要 把 第 三 方 库 打 包 到 jar 文件 中 ， 在 pom.xml 
中 添加 maven-assembly-plugin 插件 的 坐标 : 


<plugins> 
<plugin> 
<artifactId>maven-assembly-plugin</artifactId> 
<configuration> 
<archive> 
<manifest><mainClass>com.tsinghua.HdfsToEs</mainClass> 
</manifest> 
</archive> 
<descriptorRefs> 
<descriptorRef>jar-with-dependencies</descriptorRef> 
</descriptorRefs> 
</configuration> 
<executions> 
<execution> 
<id>make-assembly</id> 
<phase>package</phase> 
<goals> <goal>single</goal></goals> 
</execution> 
</executions> 
</plugin> 
<plugin> 
<groupId>org.apache.maven.plugins</groupId> 
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<artifactId>maven-shade-plugin</artifactId> 


<version>3.0.0</version> 
<executions> 
<execution> 
<phase>package</phase> 
<goals><goal>shade</goal> </goals> 
<configuration> 


<transformers> 


<transformer implementation="org.apache.maven.plugins.shade 


«resource .ManifestResourceTransformer"> 


<mainClass>com.tsinghua.HdfsToEs</mainClass> 


</transformer> 


<transformer implementation="org.apache.maven.plugins.shade 


.resource.ApacheLicenseResourceTransformer"» 


</transformer> 
</transformers> 
</configuration> 
</execution> 
</executions> 
</plugin> 
</plugins> 


注意 ，mainClass 中 对 应 的 类 是 ES-Hadoop 作业 的 主 程序 。 如 果 类 路 径 不 一 致 ， 每 次 打包 前 需要 


E 编写 代码 . 在 com. tsinghua 包 下 和 App 类 平行 的 位 置 添加 新 类 HdfsToEsjava。 


需要 按 行 读 取 HDFS 上 的 文件 内 容 然后 写 入 Elasticsearch， 没 有 Reduce 过 程 ， 程 序 中 只 需要 有 Map 


过 程 ， 完 整 的 代码 如 下 : 


import org.apache.hadoop.conf.Configuration; 
import org.apache.hadoop.fs.Path; 

import org.apache.hadoop.io.NullWritable; 
import org.apache.hadoop.io.Text; 

import org.apache.hadoop.mapreduce.Job; 
import org.apache.hadoop.mapreduce.Mapper; 


import org.apache.hadoop.mapreduce.lib.input.FileInputFormat; 
import org.apache.hadoop.mapreduce.lib.input.TextInputFormat; 
import org.apache.hadoop.util.GenericOptionsParser; 
import org.elasticsearch.hadoop.mr.EsOutputFormat; 


import java.io.IOException; 
public class HdfsToEs { 


public static class MyMapper extends Mapper<Object, 


Text, NullWritable, Text> { 
private Text line = new Text(); 
GOverride 
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protected void map (Object key, Text value, Context context) 
throws IOException, InterruptedException { 
if (value.getLength() > 0) { 
line.set (value); 


context.write(NullWritable.get(), line); 


public static void main(String[] args) throws IOException, 

ClassNotFoundException, InterruptedException { 

Configuration conf = new Configuration(); 

String[] otherArgs = new GenericOptionsParser (conf, 

args) .getRemainingArgs(); 

conf.setBoolean ("mapred.map.tasks.speculative.execution", false); 
conf.setBoolean ("mapred. reduce.tasks.speculative.execution", false); 
conf.set("es.nodes", "127.0.0.1"); 

conf.set("es.port", "9200"); 

conf.set("es.nodes.wan.only", "true"); 

conf.set("es.resource", "blog/csdn"); 

conf.set("es.mapping.id", "id"); 

conf.set("es.input.json", "yes"); 

Job job = Job.getInstance(conf, "EmrToES") ; 

job.setJarByClass (HdfsToEs.class); 

job.setMapperClass (MyMapper.class); 

job.setInputFormatClass (TextInputFormat.class); 
job.setOutputFormatClass (EsOutputFormat.class); 
job.setMapOutputKeyClass (NullWritable.class); 
job.setMapOutputValueClass (Text.class); 


FileInputFormat.setInputPaths (job, new Path(otherArgs[0])); 
System.exit(job.waitForCompletion(true) ? 0 : 1); 


} 
CEs 编译 并 打包 。 在 工程 的 目录 下 ， 执 行 如 下 命令 : 


mvn clean package 


执行 完毕 以 后 ， 可 在 工程 目录 的 target 目录 下 看 到 一 个 eshadoop -1.0-SNAPSHOT-jar- with 
-dependencies.jar， 这 个 就 是 作业 jar 包 。 
CE) 执行 ES-Hadoop 作业 。 运 行 命令 : 


hadoop jar target/eshadoop-1.0-SNAPSHOT-jar-with-dependencies.jar 
/work/blog.json 
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如 果 一 切 顺利 ， 你 会 看 到 以 下 输出 : 


18/05/03 16:18:52 INFO Configuration.deprecation: session.id is deprecated. 
Instead, use dfs.metrics.session-id 


Elasticsearch Hadoop Counters 
Bulk Retries=0 
Bulk Retries Total Time (ms)=0 
Network Retries=0 
Network Total Time (ms)=132 
Node Retries=0 
Scroll Total=0 
Scroll Total Time (ms)=0 


€I 在 Elasticsearch 中 查看 执行 结果 。 如 图 11-9 所 示 ，Elasticsearch 中 查询 blog 索引 返 
据说 明 执 行 成 功 。 


s 


Dev Tools History Settings Help 


LA kibana Console 


@ Discover 11 DELETE blog 


Visualize GET blog/_search 
Dashboard 
Timelion 


Dev Tools 


Management 


© Collapse 29 “ score": 1, 


图 11-9 ES-Hadoop 工程 截图 
为 了 方便 理解 ， 在 IDEA 中 完整 的 工程 目录 截图 如 图 11-10 所 示 。 
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Ws eshadoop ) is src) Bs main ) s java | com ) Da tsinghua ) HalsToEs si - ma 

EP Project ~ Gk p- E rentes : 
i ^ "^eshadoop ~/Documents/eik/eshadoop 5 F a 2 Er 
> be idea 26 } H 
" sre } $ 
E  vmman 加 
3 java public static void main(String[] args) throws IOException, ClassNotFoundEz 
日 v Ps comtsinghua Configuration conf = new Configuration(); 


@ Hats Toes String[] otherArgs = new GenericOptionsParser(conf, args).getRemainir 7 


> Ba target 
È dependency-reduced-pom xm! conf.setBoolean( name: “mapred. reduce. tasks. speculative.execution", 
à eshadoop iml conf.set("es. " "s 
M pommi 36 conf.set("es. 


> Ili External Libraries conf. set("es. 


» ÉP Scratches and Consoles conf.set("es. 


39 conf.set("es. 
4e conf.set("es.i 
41 


Job job = Job.getInstance(conf, jobName: "HdfsToES"); 
job. setJarByClass (HdfsToEs. class); 


45 job.setMapperClass(MyMapper. class) ; 
HateTots + mein) 
Terminal e 

g + Beereshadoop bee$ cd target/ 
Pix Bee:target bee$ zip -d eshadoop-1.0-SNAPSHOT-jar-with-dependencies.jar META-INF/LICENSE 
Ë deleting: META-INF/LICENSE 

Bee:target bee$ cd ../ 

Bee:eshadoop bee$ hadoop jar target/eshadoop-1.0-SNAPSHOT-jar-with-dependencies.jar /work/blog. json 
H 18/05/03 16:18:51 WARN util.NativeCodeloader: Unable to load native-hadoop library for your platform... using 
" 


builtin-java classes where applicable 
18/05/03 16:18:52 INFO Configuration.deprecation: session.id is deprecated. Instead, use dfs.metrics.session- 


6 TOo0 (f| Terminal 2) Evert Log. 
日 aen ue ua o È 


图 11-10 ES-Hadoop 工程 截图 


11.3.3 ”代码 分 析 


按 行 读 入 Map 过 程 ，input kye 的 类 型 为 Object，input value 的 类 型 为 Text。 输 出 的 key 
为 NullWritable 类 型 ，NullWritable 是 Writable 的 一 个 特殊 类 ， 实 现 方法 为 空 实现 ， 不 从 数据 
流 中 读数 据 ， 也 不 写 入 数据 ， 只 充当 占 位 符 。MapReduce 中 如 果 不 需 要 使 用 键 或 值 ， 就 可 以 
将 键 或 值 声明 为 NullWritable， 这 里 把 输出 的 key 设置 为 NullWritable 类 型 。 输 出 为 
BytesWritable 类 型 ， 把 json 字符 串 序列 化 。 
在 main 函数 中 ， 首先 创 建 了 Configuration() 类 的 一 个 对 象 conf, 通过 conf 配置 一 些 参数 。 


e confsetBoolean("mapred.map.tasks.speculative.execution", false); 
关闭 mapper 阶段 的 执行 推测 。 
e confsetBoolean("mapred.reduce.tasks.speculative.execution", false); 
XH] reducer 阶段 的 执行 推测 。 
€ confset("es.nodes", "127.0.0.1"); 
配置 Elasticsearch 的 IP. 
® confet("es.port", "9200"); 
配置 Elasticsearch 的 端口 。 
e confset("es.resource", "blog/csdn"); 
设置 索引 到 Elasticsearch 的 索引 名 和 类 型 名 。 
e confset("es.mapping.id", "id"); 


设置 文档 id， 这 个 参数 id 是 文档 中 的 id 字段 。 
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"o" 


conf.set("es.input.json", "yes"); 

指定 输入 的 文件 类 型 为 json 。 

e job.setInputFormatClass(TextInputFormat.class); 
设置 输入 流 为 文本 类 型 。 

e job.setOutputFormatClass(EsOutputFormat.class); 
设置 输出 为 EsOutputFormat 类 型 。 

e job.setMapOutputKeyClass(NullWritable.class); 
设置 Map 的 输出 key 类 型 为 NullWritable。 

e job.setMapOutputValueClass(BytesWritable.class); 

设置 Map 的 输出 value 类 型 为 BytesWritable 


11.4 从 Elasticsearch 到 HDFS 


这 一 节 介绍 查询 Elasticsearch 中 的 数据 并 写 入 HDFS 的 方法 和 步骤 。 
11.4.1 读 取 索 引 到 HDFS 


首先 介绍 读 取 Elasticsearch 一 个 类 型 中 的 全 部 数据 到 HDFS, 这 里 读 取 索 引 为 blog 类 型 为 
csdn 的 所 有 文档 ， 完 整 的 代码 如 下 : 


import org.apache.hadoop.conf.Configuration; 
import org.apache.hadoop.fs.Path; 
import org.apache.hadoop.io.NullWritable; 
import org.apache.hadoop.io.Text; 
import org.apache.hadoop.io.Writable; 
import org.apache.hadoop.mapreduce. Job; 
import org.apache.hadoop.mapreduce.Mapper; 
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat; 
import org.apache.hadoop.util.GenericOptionsParser; 
import org.elasticsearch.hadoop.mr.EsInputFormat; 
import java.io.IOException; 
public class EsToHDFS { 
public static class MyMapper extends 
Mapper«Writable,Writable,NullWritable,Text»( 
@Override 
protected void map(Writable key, Writable value, Context 
context) throws IOException, InterruptedException { 
Text text=new Text () 
text.set(value.toString()); 
context.write(NullWritable.get(),text); 
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} 
public static void main(String[] args) throws Exception { 


Configuration configuration=new Configuration (); 
String[] otherArgs = new GenericOptionsParser (configuration, 


args) .getRemainingArgs (); 


configuration.set("es.nodes", "127.0.0.1"); 
configuration.set("es.port", "9200"); 


configuration.set("es.resource", "blog/csdn"); 


configuration.set("es.output.json", "true"); 
Job job = Job.getInstance (configuration, 

"hadoop es write test"); 
job.setMapperClass (MyMapper.class); 
job.setNumReduceTasks (1) ; 
job.setMapOutputKeyClass (NullWritable.class); 
job.setMapOutputValueClass (Text.class); 
job.setInputFormatClass (EsInputFormat.class); 
FileOutputFormat.setOutputPath( job,new Path (otherArgs[0])); 


job.waitForCompletion (true); 


) 
打包 后 执行 作业 : 


mv target/eshadoop-1.0-SNAPSHOT-jar-with-dependencies.jar target/ 
EsToHDFS.jar 
hadoop jar target/EsToHDFS.jar /work/blog_csdn 


作业 执行 完成 以 后 , 会 在 HDFS 的 /work 目录 下 新 增 一 个 blog_csdn AK, 使 用 cat 命令 查 
看 数据 ， 命 令 如 下 ， 执 行 结 果 如 图 11-11 所 示 。 


hadoop fs -cat /work/blog_csdn/part-r-00000 


Termina 
* Node Retries=0 
x Scroll Total-4 
Scroll Total Time(ms)-14 
Bee:eshadoop bee$ mv target/eshadoop-1.0-SNAPSHOT-jar-with-dependencies.jar target/EsToHDFS.jar 
Bee:eshadoop bee$ hadoop fs -cat /work/blog csdn/part-r-00000 
18/05/03 17:25:40 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... 
builtin-java classes where applicable 
‘Shel 1 Æ Xl iR" ,"posttime" 


: CRUD ..."} 


eem 
"svn5 git m x SE [X Sl. 
{"id":"1", "title": "git f ","posttime":"2016-06-11","content":"svn5 git f € & X 3l... 
Bee:eshadoop bee$ 
SiQMessages Parn "Ae TODO Maem Q Event Log 


FA 11-11 读 取 Elasticsearch 数据 到 HDFS 
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11.4.2 ”查询 Elasticsearch 写 入 HDFS 


可 以 传 入 查询 条 件 对 Elasticsearch 中 的 文档 进行 搜索 ， 再 把 查询 结果 写 入 HDFS。 这 里 查 
if] title 中 含有 关键 词 git 的 文档 ， 代 码 如 下 : 


import org.apache.hadoop.conf.Configuration; 


import org.apache.hadoop.fs.Path; 
import org.apache.hadoop.io .Text; 
import org.apache.hadoop.io .Writable; 
import org.apache.hadoop.mapreduce.Job; 
import org.apache.hadoop.mapreduce.Mapper; 
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat; 
import org.apache.hadoop.util.GenericOptionsParser; 
import org.elasticsearch.hadoop.mr .EsInputFormat; 
import java.io .IOException; 
public class EsQueryToHDFS { 
public static class MyMapper extends Mapper<Writable, Writable, 
Text, Text> { 
@Override 
protected void map(Writable key, Writable value, Context 
context) throws IOException, InterruptedException { 
context .write (new Text (key.toString()),new 


Text (value.toString())); 


} 
public static void main(String[] args) throws Exception { 
Configuration configuration = new Configuration (); 
String[] otherArgs = new GenericOptionsParser (configuration, 
args) .getRemainingArgs(); 


configuration.set("es.nodes", "127.0.0.1"); 
configuration.set("es.port", "9200"); 
configuration.set("es.resource", "blog/csdn") ; 
configuration.set ("es.output.json", "true"); 
configuration.set ("es.query","?q=title:git"); 

Job job = Job.getInstance(configuration, "query es to HDFS"); 
job.setMapperClass (MyMapper.class) ; 
job.setNumReduceTasks (1) ; 

job.setMapOutputKeyClass (Text.class) ; 
job.setMapOutputValueClass (Text.class) ; 
job.setInputFormatClass (EsInputFormat.class) ; 
FileOutputFormat.setOutputPath(job, new Path(otherArgs[0])); 
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) 


job.waitForCompletion (true); 


打包 后 执行 作业 : 


mv target/eshadoop-1.0-SNAPSHOT-jar-with-dependencies.jar 


target/EsQueryToHDFS . jar 
hadoop jar target/EsQueryToHDFS.jar /work/EsQueryToHDFS 


作业 执行 完成 以 后 , 会 在 HDFS 的 /work 目录 下 新 增 一 个 EsQueryToHDFS 目录 , 使 用 cat 
命令 查看 数据 ， 命 令 如 下 ， 执 行 结果 如 图 11-12 所 示 。 


hadoop fs -cat /work/EsQueryToHDFS/part-r-00000 


Terminal 
* 
x 


1 


Bee:eshadoop bee$ hadoop fs -cat /work/EsQueryToHDFS/part-r-00000 
18/05/03 17:34:46 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... 
using builtin-java classes where applicable 


Bee:eshadoop bee$ mv target/eshadoop-1.0-SNAPSHOT-jar-with-dependencies.jar target/EsQueryToHDFS. jat) 


Documents Received=0 
Documents Retried=0 
Documents Sent=@ 

Network Retries=0 
Network Total Time(ms)-27 
Node Retries=0 

Scroll Total=1 

Scroll Total Time(ms)-5 


("id^ i"1","title":"gitfj M ","posttime":"2016-06-11","content":"svn5 gitff i E S X 3j... ") 


DEN c 


图 11-12 查询 Elasticsearch 数据 到 HDFS 


11.5 ”本章 小 结 


本 章 介 绍 了 连接 Elasticsearch 与 Hadoop 的 桥梁 ES-Hadoop， 搭 建 了 Hadoop 伪 分 布 式 环 
3X, 给 出 了 导入 HDFS 上 的 数据 到 Elasticsearch 以 及 查询 Elasticsearch 上 的 数据 到 HDFS。 通 


过 本 章 的 


学 习 ， 应 该 能 够 掌握 Elasticsearch 与 Hadoop 交互 的 方法 。 
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